ذكاء اصطناعي

تجهيز قواعد بيانات المتّجهات (JSONL)

تجهيز ملفات JSONL مُهيكلة للرفع المباشر إلى pgvector وPinecone وQdrant وWeaviate

RAGVector DB

كلّ سجلّ يحتوي: id, text (أو content)، واختيارياً embedding وmetadata.

الإعدادات

قيود تقنيّة

الأداة تُعيد تنسيق السجلّات إلى صيغة الاستيراد لكلّ قاعدة بيانات — لا تُولّد embeddings. أدخل المتّجهات جاهزة في حقل embedding أو اتركه فارغاً لملئه لاحقاً. كلّ المعالجة محليّة في المتصفّح.

دليل شامل

اختيار قاعدة بيانات المتّجهات الأنسب لمشروع RAG عربي

مقارنة عملية بين pgvector وPinecone وQdrant وWeaviate من منظور المحتوى العربي.

12 دقائق قراءة·تحديث مايو 2026·2420+ كلمة

ما قاعدة بيانات المتّجهات ولماذا تحتاجها

في نظام RAG، يُحوَّل كل مقطع نصّي إلى متّجه عددي (Embedding) يمثّل معناه في فضاء عالي الأبعاد. عند سؤال المستخدم، نحوّل سؤاله لمتّجه ونبحث عن أقرب المتّجهات إليه (بحث التشابه). قاعدة بيانات المتّجهات هي المحرّك المتخصّص في هذا البحث على ملايين المتّجهات بسرعة عبر فهارس مثل HNSW.

تساعدك هذه الأداة على تجهيز بياناتك بصيغة JSONL — كائن واحد في كل سطر — وهي الصيغة القياسيّة لاستيراد المقاطع ومتّجهاتها وبياناتها الوصفيّة إلى معظم قواعد المتّجهات. كل المعالجة تجري في متصفّحك.

لماذا JSONL تحديداً؟

JSON الكلاسيكي (مصفوفة واحدة كبيرة) يجب تحميله بالكامل قبل المعالجة، ما يستهلك ذاكرة هائلة مع ملايين السجلّات. JSON Lines يحلّ هذا: كل سطر كائن مستقلّ يُقرأ ويُعالَج ويُحقَن على حدة. هذا ما تستخدمه الأنظمة الكبرى لتصدير واستيراد كميّات ضخمة بثبات في الذاكرة. كل سطر عادةً يحوي: المعرّف، النص، المتّجه، والبيانات الوصفيّة.

pgvector: إن كنت على PostgreSQL أصلاً

امتداد pgvector يضيف نوع متّجه وفهارس تشابه إلى PostgreSQL. ميزته الكبرى: لا بنية تحتيّة جديدة — تستفيد من قاعدتك ونسخها الاحتياطيّة وصلاحيّاتها، وتدمج البحث المتّجهي مع استعلامات SQL العاديّة. مناسب للمشاريع الصغيرة والمتوسّطة وحين تكون البيانات في Postgres بالفعل. حدوده تظهر عند مقاييس ضخمة جداً تتطلّب محرّكاً متخصّصاً.

Pinecone: خدمة مُدارة بالكامل

Pinecone خدمة سحابيّة مُدارة لا تتولّى تشغيلها بنفسك: ترفع متّجهاتك وتبحث عبر API. ميزتها سهولة التوسّع وقلّة العبء التشغيلي. مقابل ذلك: تكلفة اشتراك، واعتماد على مزوّد خارجي، وبياناتك تغادر بنيتك — وهو اعتبار حسّاس للمحتوى الحكومي أو السرّي في المنطقة العربيّة.

Qdrant: مفتوح المصدر وعالي الأداء

Qdrant مكتوب بلغة Rust، سريع وفعّال في الذاكرة، يدعم التصفية الغنيّة على البيانات الوصفيّة جنباً إلى جنب مع بحث التشابه (مثلاً: ابحث في وثائق هذا القسم فقط). يمكنك تشغيله ذاتياً (Self-hosted) للسيطرة الكاملة على بياناتك، أو استخدام نسخته السحابيّة. خيار متوازن بين القوّة والسيطرة.

Weaviate: غنيّ بالميزات

Weaviate مفتوح المصدر يقدّم بحثاً متّجهياً مع وحدات للبحث الهجين (متّجهي + كلمات مفتاحيّة) وميزات متقدّمة. مناسب للفرق التي تريد منصّة متكاملة وتقبل منحنى تعلّم أعلى وعبء تشغيلي أكبر مقابل المرونة.

البحث الهجين: ضرورة للعربية

البحث المتّجهي ممتاز للمعنى لكنّه قد يخفق في المصطلحات الدقيقة والأسماء والأرقام (رقم نظام، اسم شركة). البحث بالكلمات المفتاحيّة عكسه. الدمج بينهما (Hybrid Search) يجمع الأفضل. هذا مهمّ بشكل خاصّ للعربية حيث تتعدّد صيغ الكلمة الواحدة؛ احرص أن تدعم قاعدتك البحث الهجين أو خطّط لإضافته.

كيف تقرّر

إن كنت على PostgreSQL وحجمك معتدل: ابدأ بـ pgvector لبساطته. إن أردت أقلّ عبء تشغيلي وقَبِلت خدمة خارجيّة: Pinecone. إن أردت أداءً عالياً مع سيطرة على بياناتك (مهمّ للخصوصيّة في منطقتنا): Qdrant ذاتي الاستضافة. وإن أردت منصّة غنيّة بالميزات: Weaviate. القرار يوازن بين الحجم، الميزانيّة، الخبرة التشغيليّة، ومتطلّبات سيادة البيانات.

قائمة تجهيز البيانات قبل الاستيراد

تأكّد من أنّ كل سجلّ يحمل معرّفاً فريداً، ونصّ المقطع، ومتّجهاً بالأبعاد الصحيحة المطابقة لنموذج الـ Embedding، وبيانات وصفيّة كافية (المصدر، القسم، التاريخ) للتصفية والاستشهاد. وحّد ترميز النص العربي (UTF-8) ونظّفه من المحارف غير المرئيّة قبل التصدير إلى JSONL.

الخطوات السابقة واللاحقة في سلسلة RAG

قبل هذه الخطوة قسّم نصّك عبر تقسيم النصوص العربية وولّد التضمينات عبر مولّد التضمينات العربية، وبعد التجهيز جرّب البحث الدلالي وبنّاء استعلامات RAG.

أسئلة شائعة

ما هي صيغة JSONL ولماذا تستخدمها قواعد البيانات المتّجهة؟

JSONL هي ملف نصّي كل سطر فيه كائن JSON مستقلّ. هذا التنسيق سهل القراءة سطراً سطراً ويناسب الاستيراد بالدفعات إلى قواعد المتّجهات مثل Pinecone وWeaviate وQdrant دون تحميل الملف كاملاً في الذاكرة.

ما الحقول الأساسية التي يجب أن يحتويها كل سطر JSONL؟

عادةً نصّ المقطع (text)، ومعرّف فريد (id)، وبيانات وصفية (metadata) مثل المصدر ورقم الصفحة. البيانات الوصفية تتيح التصفية وعرض المصدر مع الإجابة، وهي ضرورية في أنظمة RAG الجادّة.

هل يولّد التحضير المتّجهات (embeddings) أم النصّ فقط؟

الأداة تجهّز النصّ والبنية بصيغة JSONL جاهزة للاستيراد؛ أما توليد المتّجهات نفسها فيتمّ عبر نموذج embeddings في قاعدة البيانات أو خدمة منفصلة بعد الاستيراد.

هل بياناتي آمنة أثناء التحضير؟

نعم، التحضير يجري محلياً داخل المتصفّح دون رفع المحتوى لأي خادم، فتبقى مستنداتك خاصّة.

أدوات ذات صلة

أدوات أخرى مجانية على ArabToolBox، كلها تعمل في متصفّحك بدون تسجيل.

أدوات ذات صلة

أدوات أخرى في نفس التصنيف قد تفيدك على ArabToolBox.

أدوات قد تهمّك