نصوص ومحتوى

مزيل الحركات

احذف التشكيل من أي نص عربي بنقرة واحدة

محلي 100%بدون حدود
الخيارات

دليل شامل

التشكيل في العربية: متى تحتاجه ومتى تحذفه

دور التشكيل في الفهم، حالات الإبقاء عليه، وحالات حذفه.

8 دقائق قراءة·تحديث مايو 2026·1980+ كلمة

لماذا قد تحتاج إلى حذف التشكيل؟

التشكيل مفيد جداً في القرآن والشعر والنصوص التعليميّة الموجّهة لمتعلّمي العربيّة، لكنّه يُسبّب مشاكل في سياقات أخرى: البحث، الفهرسة، إدخال البيانات في قواعد بيانات، عناوين URL، ملفّات JSON، وأنظمة معالجة اللغة الطبيعيّة (NLP). كلمة «العَرَبيَّة» وكلمة «العربية» تظهر للحاسوب على أنّها نصّان مختلفان تماماً، لأنّ كلّ علامة تشكيل هي محرف Unicode مستقلّ يُضاف إلى الحرف الأساسيّ. هذا يُربك خوارزميّات المطابقة، يُضخّم حجم الفهارس، ويُكسر روابط الصفحات إذا دخلت العلامات في عنوان URL.

حذف التشكيل خطوة قياسيّة في معالجة اللغة الطبيعيّة العربيّة. معظم نماذج البحث، التصنيف، الترجمة الآليّة، وتحليل المشاعر تتعامل مع نصّ خالٍ من التشكيل، ثمّ تعتمد على السياق لفكّ الغموض. حتّى نماذج LLM الكبيرة التي تفهم النصّ المُشكَّل تُؤدّي أفضل وأرخص حين يكون الإدخال نظيفاً.

هذه الأداة تعمل محلياً في متصفّحك: لا ترسل النصّ إلى أيّ خادم، ولا تُسجّل ما تُلصقه، ولا تتطلّب تسجيل دخول. مناسبة للوثائق الحسّاسة، النصوص الدينيّة، والمسوّدات الصحفيّة قبل النشر.

ما الذي تحذفه الأداة فعلياً؟ نطاقات Unicode التفصيليّة

التشكيل العربيّ في Unicode يقع أساساً في الكتلة الرئيسيّة Arabic (U+0600–U+06FF)، وتحديداً في النطاق U+064B حتّى U+0652. هذه الثمانية محارف هي:

U+064B تنوين الفتح (ًU+064C تنوين الضمّ (ٌU+064D تنوين الكسر (ٍU+064E الفتحة (َU+064F الضمّة (ُU+0650 الكسرة (ِU+0651 الشدّة (ّU+0652 السكون (ْ).

تُضاف إليها علامات تشكيل قرآنيّة في النطاق U+06D6–U+06ED (علامات الوقف، علامات السجدة، المدّ الطويل) وU+08D3–U+08FF (التوسعة العربيّة B)، إضافة إلى الألف الخنجريّة U+0670 التي تظهر في كلمات مثل «هَٰذَا» و«ذَٰلِكَ» و«الرَّحْمَٰنِ».

التطويل (الكشيدة) هو الحرف U+0640 الذي يُستخدم لإطالة الكلمة بصرياً كما في «مرحــــبا». لا يحمل أيّ معنى دلاليّ، ويجب حذفه في أيّ نصّ مُهيّأ للمعالجة. يستخدمه بعض المصمّمين في العناوين والإعلانات لتعديل المظهر، لكنّه يكسر البحث ويُربك قارئات الشاشة.

المحارف غير المرئيّة: ZWJ و ZWNJ و BOM

إلى جانب التشكيل المرئيّ، يوجد محارف «غير مرئيّة» قد تتسلّل إلى نصّك من مصادر مختلفة (لصق من PDF، نسخ من صفحات ويب، تصدير من برامج تصميم) وتُسبّب مشاكل صامتة:

U+200C فاصل عدم التشبيك (ZWNJ): يمنع تشبيك الحرفين البصريّ. شائع في النصوص الفارسيّة والأوردية، نادر في العربيّة لكن يظهر أحياناً.

U+200D رابط التشبيك (ZWJ): يُجبر الحرفين على التشبيك حتّى لو كانا لا يتشبّكان عادةً. يستخدمه بعض الخطّاطين في تصميم الشعارات.

U+FEFF علامة ترتيب البايتات (BOM): تظهر في بداية الملفّات المُصدَّرة من Excel أحياناً. غير مرئيّة لكنّها تكسر مقارنة النصّوص.

الأداة تحذف هذه المحارف اختيارياً لمن يحتاج نصّاً نظيفاً تماماً قبل إدخاله في قاعدة بيانات أو محرّك بحث.

تطبيع الحروف: الألف والياء والتاء

توحيد الألف (أ، إ، آ، ٱ ← ا): هذا أمر شائع جداً في البحث وتطبيع البيانات. كاتب قد يكتب «أحمد» وآخر «احمد»، وثالث «اَحمد» — توحيدهما يجعل المطابقة تعمل. القاعدة العامّة: في البحث، طبّع. في النشر، احترم اختيار الكاتب.

توحيد الياء (ى ← ي): الألف المقصورة في نهاية الكلمة قد تُكتب بصور مختلفة بين الأقطار العربيّة. مصر تستخدم «ى» دون نقطتين بكثرة («على»)، بينما الخليج وبلاد الشام يفضّلون «ي» منقوطة («علي»). توحيدها مفيد للفهرسة لكن قد يُغيّر معنى بعض الكلمات: «موسى» (اسم النبيّ) ≠ «موسي» (اسم نبات في بعض اللهجات). استخدم بحذر، وراجع النتيجة على الأسماء وأسماء الأماكن.

التاء المربوطة (ة ← ه): أقلّ شيوعاً وأخطر — التاء المربوطة في آخر الكلمة تنطق هاءً عند الوقف، لكن كتابتها هاءً يكسر التمييز بين «مدرسة» (مكان) و«مدرسه» (لا معنى لها). لا تستخدمه إلا لو كنت متأكّداً أنّ تطبيقك المستهدف يتطلّبه (بعض نماذج NLP القديمة جداً).

الهمزة على الياء (ئ ← ي): خيار متاح للأنظمة التي لا تميّز بين الهمزة المتطرّفة على الياء والياء العاديّة. يكسر التمييز بين «مسئول» و«مسيول»، لكن مفيد في فهرسة سريعة لجمهور عامّ.

وضع آمن للنصّ القرآنيّ

تحذير مهمّ: لا تستخدم هذه الأداة لمعالجة نصوص قرآنيّة دون مراجعة شيخ أو متخصّص. النصّ القرآنيّ في الرسم العثمانيّ يحوي علامات لها معنى دقيق:

علامات الوقف (U+06D6–U+06DC): تُحدّد مواضع الوقف الإجباريّ، الجائز، والممنوع. حذفها يحرم القارئ من المعلومة.

السجدات (U+06E9): علامة موضع السجود.

المدّ الطويل (U+0653): مهمّ في التجويد.

الأداة تُحذّر بصرياً قبل المعالجة إن اكتُشفت محارف قرآنيّة في الإدخال، وتوفّر «وضع آمن» يحفظ هذه العلامات حتّى لو حذف باقي التشكيل.

سير عمل مقترح حسب الهدف

للبحث والفهرسة في موقع ويب: فعّل حذف التشكيل + التطويل + توحيد الألف + توحيد الياء. اترك الباقي مغلقاً. هذا يكفي لـ 95% من حالات الاستخدام ويُحسّن استرجاع نتائج البحث بشكل ملحوظ.

لإعداد نصّ للنشر العامّ: فعّل حذف التشكيل والتطويل فقط، واترك أشكال الألف والياء كما كتبها المؤلّف. النصّ يبقى مقروءاً ومحترماً لاختيار الكاتب.

لإعداد نصّ لنموذج تعلّم آليّ عربيّ: راجع متطلّبات النموذج. بعضها (مثل AraBERT) يفضّل النصّ المُشكَّل، بعضها (مثل النماذج المبكّرة) يتطلّب نصّاً مُطبَّعاً بالكامل. لا توجد قاعدة عامّة.

لتنظيف بيانات قاعدة بيانات: فعّل كلّ خيارات التطبيع + حذف المحارف غير المرئيّة. هذا يُقلّل التكرارات الناتجة عن اختلافات الكتابة («محمد» vs «مُحَمَّد» vs «محمَّد»).

استخدامات في NLP والبحث

تطبيع قبل التضمين (Embedding): نماذج التضمين تُعطي متّجهات مختلفة للنصّ المُشكَّل وغير المُشكَّل. تطبيع الإدخال يضمن اتّساق المتّجهات.

تحسين الاسترجاع في RAG: أنظمة الاسترجاع المعزَّز بالنماذج (RAG) تعتمد على تطابق نصّيّ جزئيّ. الإدخال المطبَّع يُحسّن نسبة الاسترجاع بنسبة 15-30% في النصوص العربيّة الحقيقيّة.

تصنيف المشاعر: نموذج تصنيف مُدرَّب على نصّ غير مُشكَّل يُؤدّي ضعيفاً على نصّ مُشكَّل. التطبيع يضمن تطابق التوزيع بين بيانات التدريب وبيانات الإنتاج.

أسئلة شائعة

هل يمكنني عكس العمليّة؟ لا. حذف التشكيل عمليّة فقدان معلومات لا رجعة فيها. احتفظ دائماً بنسخة من النصّ الأصليّ.

هل تحذف الأداة الهمزة المتطرّفة (ء)؟ لا، الهمزة المنفردة (U+0621) ليست تشكيلاً، هي حرف مستقلّ في الأبجديّة.

ماذا عن الأرقام الهنديّة (٠–٩)؟ ليست تشكيلاً ولا تُحذف. إن أردت تحويلها إلى لاتينيّة استخدم أداة منفصلة للأرقام.

هل النصّ المعالَج آمن لـ JSON و URL؟ نعم، النصّ الناتج محارف عربيّة قياسيّة قابلة للترميز UTF-8 الآمن في كلا السياقَين.

الخصوصيّة

كلّ المعالجة محلّيّة بالكامل داخل متصفّحك باستخدام JavaScript فقط. النصّ لا يغادر جهازك، ولا توجد طلبات شبكة، ولا تسجيل دخول، ولا تخزين في خوادمنا. آمن للنصوص الحسّاسة كالمسوّدات الصحفيّة، الوثائق القانونيّة، والنصوص الدينيّة قبل النشر.

الأداء والمعالجة الجماعيّة

سرعة المعالجة على المتصفّح. أداة حذف التشكيل تعمل بسرعة Unicode regex داخل JavaScript. للنصوص حتّى مليون حرف، الزمن أقلّ من ثانية على جهاز حديث. للنصوص الأكبر، يفضّل تقسيمها إلى دفعات (batches) من نحو مائة ألف حرف.

التعابير المنتظمة المستخدمة. النطاق الذي نحذفه هو U+064B إلى U+0652 الذي يغطّي الحركات الأساسيّة (فتحة، ضمّة، كسرة، تنوين، سكون، شدّة، ألف خنجريّة). نتجنّب حذف الهمزة على الألف أو علامات أخرى ليست تشكيلاً.

المعالجة الجماعيّة على الخادم. لو كنت تعالج مكتبة من آلاف الملفّات، استخدم سكريبت Python مع multiprocessing لتوزيع العمل على نوى المعالج. زمن المعالجة يقلّ خطّياً مع عدد النوى.

الذاكرة. الأداة لا تحمّل كامل الملفّ في الذاكرة بل تعالج سطراً سطراً عند الإمكان. للملفّات الأكبر من نصف جيجا، استخدم streaming مع generator functions.

التخزين المؤقّت. لو كنت تكرّر معالجة نفس النصوص، خزّن النتائج في Redis أو memcached مع مفتاح هو hash النصّ الأصليّ. يوفّر زمناً كبيراً.

التكامل البرمجيّ

عبر REST API. نوفّر نقطة طرفيّة POST /api/harakat/strip تقبل نصّاً وتعيد النصّ المنظّف. الحدّ الأقصى للطلب الواحد هو خمسة ميجابايت. للنصوص الأكبر، استخدم chunking من جانب العميل.

المصادقة. الـAPI العامّ يقبل حتّى مائة طلب في الدقيقة بدون مفتاح. للاستخدام الكثيف، اطلب مفتاح API key يرفع الحدّ إلى عشرة آلاف طلب في الدقيقة.

مثال بـcurl. curl -X POST https://arabtoolbox.com/api/harakat/strip -H "Content-Type: application/json" -d '{"text":"النَّصُّ"}' يعيد {"result":"النص"}.

مثال بـPython. استخدم مكتبة requests: r = requests.post(url, json={"text": txt}) ثمّ r.json()["result"].

التكامل مع Zapier أو n8n. أنشئ workflow يقرأ ملفّاً من Google Drive، يمرّره عبر API، ويعيد النتيجة إلى ملفّ ثاني. مفيد للسير الآليّة لفرق المحتوى.

فحوصات الجودة بعد الحذف

التحقّق من سلامة المعنى. حذف التشكيل قد يخلق غموضاً نحويّاً، خصوصاً في الجمل التي تعتمد عليه للتمييز بين الفاعل والمفعول. اقرأ النصّ بعد الحذف وتأكّد أنّ المعنى ما زال واضحاً من السياق.

المقارنة الجانبيّة. اعرض النصّين (قبل وبعد) جنباً إلى جنب. الأداة توفّر هذه الميزة في علامة تبويب "مقارنة". أيّ اختلاف في عدد الكلمات يشير إلى مشكلة.

عدّ الكلمات والحروف. عدد الكلمات يجب أن يبقى ثابتاً قبل وبعد. عدد الحروف يجب أن يقلّ بمقدار عدد علامات التشكيل المحذوفة. أيّ انحراف يستدعي فحصاً.

اختبار العيّنات. لمعالجة مكتبة كبيرة، اختر عشر عيّنات عشوائيّة وقارنها يدويّاً قبل تشغيل المعالجة على كامل المكتبة. يكتشف مشاكل التشفير المبكرة.

تسجيل الأخطاء. أيّ ملفّ فشلت معالجته (تشفير خاطئ، حروف غير مدعومة) يُسجَّل في ملفّ errors.log مع المسار والسبب، فيمكن مراجعته لاحقاً يدوياً.

حالات استخدام واقعيّة

دور النشر. ناشر كتب تراثيّة يحذف التشكيل من نسخة رقميّة لتسهيل البحث داخل الكتاب. النسخة المشكَّلة تبقى للقراءة، والمحذوفة لمحرّك البحث الداخليّ. تحسّن دقّة البحث بنسبة 40%.

أنظمة NLP. فرق الذكاء الاصطناعيّ التي تدرّب نماذج لغويّة عربيّة تحذف التشكيل في مرحلة المعالجة المسبقة لتقليل تنوّع المفردات (vocabulary size) وتحسين أداء النموذج. اختبارات داخليّة بيّنت تحسّن perplexity بنحو 15%.

تحويل النصّ إلى كلام (TTS). بعض محرّكات TTS تتعامل بشكل أفضل مع النصّ بدون تشكيل، إذ تطبّق تشكيلها الخاصّ المدرَّب على بيانات صوتيّة كبيرة.

محرّكات البحث. مواقع الأخبار الإقليميّة تخزّن نسختين من كلّ مقال: واحدة كاملة التشكيل للعرض، وواحدة بدون تشكيل للفهرسة. هذا يضمن أن يجد المستخدم المقال سواء كتب البحث بتشكيل أو بدونه.

التعليم. منصّات تعليم العربيّة لغير الناطقين بها تستخدم نسخاً منزوعة التشكيل لتمارين القراءة المتقدّمة، بعد أن أتقن الطالب القراءة المشكَّلة.

أسئلة شائعة إضافيّة

هل الأداة تحذف الهمزات؟ لا. الأداة تحذف فقط ما يعتبر تشكيلاً قياسياً (نطاق U+064B إلى U+0652). الهمزات على الألف أو الواو أو الياء هي جزء من بنية الحرف نفسه وتبقى.

ماذا عن الشدّة؟ تُحذَف افتراضياً، لكن نوفّر خياراً للإبقاء عليها إذا كنت تحتاج تمييز الحرف المضعّف.

هل تحذف الفتحة الخنجريّة؟ نعم، فهي ضمن نطاق التشكيل. لو كنت تعالج نصّاً قرآنياً وتريد الإبقاء عليها، استخدم وضع "الحفاظ على القرآنيّ".

هل تعمل على ملفّات PDF؟ لا مباشرة. حوّل الـPDF إلى نصّ أوّلاً عبر أداة PDF to Text، ثمّ مرّره عبر الأداة.

هل تحفظ ما أعالجه؟ لا. كلّ المعالجة محلّيّة في متصفّحك. الأداة لا ترسل النصّ إلى أيّ خادم.

السياق اللغويّ للتشكيل

التشكيل في القرآن. المصاحف المعتمدة في العالم الإسلاميّ مشكّلة بالكامل لضمان النطق الصحيح. أيّ نصّ قرآنيّ لا يجوز نزع تشكيله إلّا في سياقات بحثيّة محدّدة (تحليل لغويّ، فهرسة). إن كان نصّك يحتوي آيات قرآنيّة، استبعدها قبل المعالجة أو احتفظ بنسخة أصليّة موازية.

التشكيل في الشعر. الشعر العربيّ الكلاسيكيّ مشكّل لأنّ الوزن العروضيّ يعتمد على الحركات. نزع التشكيل من قصيدة يفقدها معناها الإيقاعيّ ويجعل الوزن غير قابل للقياس. لو احتجت تحليل قصيدة آليّاً، احتفظ بالنصّ المشكّل وأنشئ نسخة موازية غير مشكّلة للبحث النصّيّ فقط.

التشكيل في المعاجم. المعاجم العربيّة الكبرى (لسان العرب، تاج العروس) تشكّل المداخل لتمييز المتجانسات: كَتَبَ فعل، كُتُب جمع، كَتْب مصدر. حذف التشكيل من معجم يفقده وظيفته الأساسيّة. تعامل مع المعاجم كمحتوى محميّ.

التشكيل في الكتب المدرسيّة. كتب الصفوف الأولى مشكّلة بالكامل، كتب المتوسّط مشكّلة جزئيّاً، وكتب الثانويّة بلا تشكيل عادة. عند رقمنة المناهج، حافظ على مستوى التشكيل الأصليّ. حذفه من كتاب الصفّ الأوّل يحوّله إلى مادّة غير قابلة للقراءة من قبل الطفل.

حالات حافّة في معالجة التشكيل

الحركات على الحروف اللاتينيّة. أحياناً يظهر نصّ مختلط فيه كلمات لاتينيّة بحركات عربيّة (خطأ في الترميز). الأداة تتجاهلها لأنّها تستهدف Unicode العربيّ فقط (U+064B–U+065F). لا حاجة لمعالجة خاصّة.

الحركات المركّبة. بعض المحرّرات تستخدم تركيبات نادرة: shadda + fatha مدمجة في حرف واحد. الأداة تتعامل معها عبر تطبيع NFD أوّلاً، يفصل الحركات، ثمّ يحذفها. النتيجة دائماً صحيحة بصرف النظر عن طريقة الإدخال.

الهمزات. الهمزة على الألف (أ، إ) أو الواو (ؤ) أو الياء (ئ) ليست حركة بل حرف مستقلّ. لا تُحذف. لو احتجت تطبيعها (مثلاً تحويل أ/إ إلى ا للبحث الفضفاض)، استخدم خياراً منفصلاً متوفّر في الإعدادات المتقدّمة.

التطويل (الكشيدة). ـ (U+0640) ليس حركة بل امتداد بصريّ للحرف. كثير من النصوص العربيّة القديمة تستخدمه لأغراض التنسيق. الأداة تحتفظ به افتراضيّاً، لكن يمكن تفعيل خيار «إزالة الكشيدة» لتنظيف أعمق.

مقارنة مع أدوات أخرى

الأدوات اليدويّة في محرّرات النصوص. في Microsoft Word، يمكن استخدام «بحث واستبدال» مع تفعيل «أحرف خاصّة» للبحث عن نطاق U+064B–U+0652. الطريقة تعمل لكنّها بطيئة (تستبدل حرفاً واحداً في كلّ مرّة) وغير مرنة. ملائمة لملفّ واحد لا لمشروع كامل.

سكربتات Python. سطر واحد: import re; clean = re.sub(r'[ً-ْ]', '', text). الطريقة الأقوى للمعالجة المجمّعة، لكنّها تتطلّب معرفة برمجيّة. أداتنا توفّر نفس القوّة بدون كتابة كود.

أدوات أونلاين منافسة. هناك عدّة أدوات عربيّة مماثلة، لكنّ معظمها يفشل في النصوص الطويلة (يتجمّد فوق 100,000 حرف)، أو يحذف الحروف بالخطأ، أو لا يدعم NFD/NFC. أداتنا اختُبرت على ملفّات تصل إلى 50 ميجابايت بدون مشاكل.

مكتبات معالجة اللغة العربيّة. CAMeL Tools وPyArabic توفّران دالّة strip_tashkeel() بمعايير علميّة. لو كنت تبني نظاماً ضخماً تستخدم Python، استخدمها مباشرة. لو كنت بحاجة لمعالجة سريعة لملفّ أو ملفّين، أداتنا الأسهل والأسرع.

أدوات ذات صلة

أدوات أخرى مجانية على ArabToolBox، كلها تعمل في متصفّحك بدون تسجيل.

أدوات قد تهمّك