لماذا التقسيم (Chunking) حجر الأساس في RAG
في أنظمة التوليد المعزّز بالاسترجاع (RAG)، لا تُمرَّر مستنداتك للنموذج دفعةً واحدة. تُقسَّم إلى مقاطع (Chunks)، يُحوَّل كل مقطع إلى متّجه (Embedding)، ويُسترجَع أكثرها صلةً بسؤال المستخدم وقت الإجابة. جودة هذا التقسيم تحدّد سقف جودة النظام كلّه: مقاطع سيّئة تعني استرجاعاً سيّئاً مهما كان النموذج قويّاً.
هذه الأداة تساعدك على تجربة استراتيجيّات التقسيم على نصّك العربي مباشرةً داخل المتصفّح، لترى كيف تتغيّر المقاطع مع تغيّر الحجم والتداخل، قبل أن تبني خطّ معالجتك الفعلي.
حجم المقطع: المقايضة الأساسيّة
المقطع الصغير (مثلاً 200–300 محرف) دقيق ومركّز لكنّه قد يفقد السياق المحيط. المقطع الكبير (1000+ محرف) يحمل سياقاً أغنى لكنّه قد يخلط عدّة أفكار فيضعف دقّة المطابقة ويستهلك من نافذة النموذج. لا يوجد رقم مثالي مطلق — يعتمد على طبيعة محتواك ونموذج الـ Embedding المستخدَم.
التداخل (Overlap): لماذا تحتاجه
إذا قسّمت بحدّة عند حدود ثابتة، فقد تنقطع جملة أو فكرة بين مقطعين فيضيع المعنى. الحلّ تداخل جزئي: يبدأ المقطع التالي بإعادة آخر جُمَل المقطع السابق (مثلاً 10–20٪ تداخل). هذا يحافظ على استمراريّة السياق على حساب بعض التكرار في التخزين.
التقسيم الدلالي أفضل من التقسيم الأعمى
أسوأ تقسيم هو القطع عند عدد محارف ثابت بصرف النظر عن المعنى. الأفضل احترام الحدود الطبيعيّة: الفقرات أولاً، ثمّ الجُمَل. القطع عند نهاية فقرة أو جملة يحافظ على وحدة الفكرة. التقسيم الدلالي المتقدّم يجمع الجُمَل المتقاربة معنىً في مقطع واحد.
خصوصيّات العربية في التقسيم
العربية تتحدّى التقسيم الساذج: لا توجد أحرف كبيرة لتمييز بدايات الجُمَل، وعلامات الترقيم قد تكون عربيّة (؟ ، ؛) أو لاتينيّة مختلطة، والكلمات تتّصل بلواحق وسوابق. عند احتساب "الحجم" انتبه إلى أنّ عدّ المحارف يختلف عن عدّ الرموز (Tokens) التي يراها النموذج؛ الكلمة العربيّة الواحدة قد تتجزّأ إلى عدّة رموز.
نظّف النص أولاً من المحارف غير المرئيّة والتشكيل الزائد إن لم يكن ضرورياً، ووحّد الأرقام، حتى لا تتلوّث المقاطع وتضعف جودة المتّجهات الناتجة.
حافظ على البيانات الوصفيّة مع كل مقطع
لا تخزّن نصّ المقطع وحده. أرفق معه مصدره (اسم المستند، رقم الصفحة، العنوان الأقرب). هذه البيانات الوصفيّة ضروريّة لاحقاً لذكر المصادر في الإجابة (الاستشهادات) ولتصفية الاسترجاع حسب القسم أو الوثيقة. نظام RAG بلا مصادر يفقد قابليّة التحقّق.
سير عمل موصى به
ابدأ بتقسيم يحترم الفقرات بحجم متوسّط وتداخل خفيف، جرّبه على أسئلة حقيقيّة، وقِس جودة الاسترجاع. إن جاءت النتائج مشتّتة، صغّر الحجم؛ وإن فقدت السياق، كبّره أو زِد التداخل. التقسيم عمليّة تجريبيّة تُضبَط بالقياس لا بالتخمين.
الخطوات التالية في سلسلة RAG
بعد التقسيم، حوّل المقاطع إلى متّجهات عبر مولّد تضمينات النصوص العربية، ثم جهّزها بصيغة تجهيز قواعد بيانات المتّجهات JSONL، واختبر الاسترجاع عبر البحث الدلالي العربي.
أسئلة شائعة
ما حجم المقطع (chunk) الأمثل للنصّ العربي في أنظمة RAG؟
لا يوجد رقم واحد مثالي، لكن القاعدة العملية تبدأ بمقاطع متوسّطة بين 200 و500 كلمة مع تداخل خفيف بينها. النصّ العربي يميل لجمل أطول، فاحترام حدود الفقرات أهمّ من التزام رقم ثابت.
لماذا التداخل (overlap) بين المقاطع مهمّ؟
التداخل يمنع فقدان السياق عند حدود المقاطع، فالجملة التي تُقطَع بين مقطعين تبقى مفهومة لأن جزءاً منها يتكرّر في المقطع التالي، ما يحسّن دقّة الاسترجاع والإجابة.
هل يحترم التقسيم حدود الجمل والفقرات العربية؟
نعم، التقسيم الجيّد يقطع عند نهايات الجمل والفقرات لا في منتصف الكلمة أو الجملة، حفاظاً على المعنى. هذا أهمّ في العربية بسبب ترابط الجمل الطويل.
هل يُرفع النصّ إلى أي خادم أثناء التقسيم؟
لا، التقسيم يجري داخل متصفّحك، فيبقى نصّك على جهازك، وهو ما يناسب الوثائق الداخلية والبيانات الخاصّة.
أدوات ذات صلة
أدوات أخرى مجانية على ArabToolBox، كلها تعمل في متصفّحك بدون تسجيل.
- تجهيز قواعد بيانات المتّجهات (JSONL)تجهيز ملفات JSONL مُهيكلة للرفع المباشر إلى pgvector وPinecone وQdrant وWeaviate
- استخراج الجداول من PDFاستخرج الجداول من PDF إلى Excel أو CSV — دقّة عالية على الجداول العربية المعقّدة
- تحويل Word إلى PDF (عربي)تحويل مستندات Word إلى PDF مع الحفاظ على شكل المستند واتجاه RTL
- تحويل PDF إلى Word (عربي)استخراج نصّ ملفات PDF العربية إلى Word قابل للتحرير
- تحويل Excel إلى CSV (UTF-8 عربي)تحويل ملفات Excel إلى CSV بترميز UTF-8 BOM لضمان عرض العربية بشكل صحيح
- تحويل CSV إلى Excel (عربي)تحويل ملفات CSV إلى Excel مع كشف الترميز التلقائي ودعم الأعمدة العربية