أمان وتقنية

تحويل PDF إلى Word

حوّل PDF إلى Word قابل للتعديل — مع الحفاظ على التنسيق

RTL متوافقجداول + صورOCR للممسوحة

الإعدادات

كن صريحاً مع توقّعاتك

الأداة تستخرج النصّ فقط. الصور، الجداول المعقّدة، وتنسيقات الخطوط لا تُنقَل. للـ PDF الممسوح ضوئياً (صور بدلاً من نصّ)، تحتاج أداة OCR منفصلة. الناتج ملفّ .doc يفتحه Word ويتيح التعديل الكامل.

دليل شامل

تحويل PDF إلى Word: التحديات في العربية و RTL

لماذا تحويل PDF إلى Word مهمة معقّدة في العربية، أدوات الـ OCR، ومتى يفشل التحويل التلقائي.

7 دقائق قراءة·تحديث مايو 2026

لماذا تحويل PDF إلى Word صعب — وأصعب بالعربيّة

PDF صيغة تخطيط بصري. كلّ حرف موضوع في إحداثيّة (س،ص) محدّدة على الصفحة. لا توجد فكرة «فقرة» أو «سطر» في الملفّ الأصلي — فقط أحرف منتشرة على المستوى. التحويل إلى Word يتطلّب إعادة بناء البنية المنطقيّة من المعلومات البصريّة.

بالعربيّة، المشكلة تتضاعف. ترتيب القراءة من اليمين إلى اليسار، لكن داخل الملفّ الأحرف قد تُخزَّن بترتيب منطقي (الأوّل أوّلاً) أو بصري (اليمين أوّلاً)، ولا توجد قاعدة موحّدة. التشكيل (الفتحة، الكسرة، الضمّة) قد يخزَّن كأحرف منفصلة أو مدمجة. الأرقام داخل النصّ تكسر اتّجاه القراءة وتحتاج معالجة bidi.

كيف تعمل هذه الأداة

نستخدم pdfjs-dist، مكتبة موزيلا الرسميّة لقراءة PDF في المتصفّح. لكلّ صفحة، نطلب getTextContent() الذي يُرجع مصفوفة من قطع النصّ مع إحداثيّاتها وخصائصها.

الخوارزميّة: نجمع القطع التي تشترك في الإحداثيّة الرأسيّة (دلتا أقلّ من 2 بكسل) في سطر واحد. الأسطر المتقاربة عمودياً تُجمَع في فقرة. الفجوات الكبيرة تُولّد فقرات جديدة. النصّ يُغلَّف في HTML بـ dir="rtl" ويُحفَظ بامتداد .doc الذي يفتحه Word مباشرةً.

ما يُنقَل وما يضيع

يُنقَل: النصّ بالكامل بترتيبه القرائي، التقسيم إلى فقرات، الاتجاه RTL، خلط العربي/الإنجليزي بسياق bidi صحيح، الأرقام والرموز.

لا يُنقَل: الجداول (تتحوّل إلى نصّ مسطّح)، الصور، التنسيقات الخطّيّة (عريض، مائل)، ألوان النصّ، الرؤوس والتذييلات. هذا حدّ تقني لمعالجة المتصفّح — الأدوات السحابيّة تستخدم نماذج ML ضخمة لاستخراج الجداول وهي غير عمليّة في المتصفّح.

الـ PDF الممسوحة ضوئياً: لماذا تفشل

الملفّ الممسوح ليس PDF نصّي. هو صور مغلَّفة في حاوية PDF. getTextContent() ستُرجع نصّاً فارغاً لأنّه لا يوجد نصّ — فقط بكسلات.

الحلّ هو OCR (التعرّف الضوئي على الحروف). للعربيّة، أفضل الأدوات: Tesseract مع نموذج ara.traineddata، Google Document AI، أو Adobe Acrobat Pro. النموذج المحلّيّ Tesseract.js يعمل في المتصفّح، لكنّ النموذج وحده ~50 ميجابايت وزمن المعالجة طويل، لذا لا ندمجه افتراضياً.

أسئلة شائعة

هل الناتج .docx أم .doc؟

.doc — وهو HTML قابل للفتح كمستند Word، يفتحه Word/LibreOffice بالكامل ويتيح التعديل. الـ .docx الحقيقي يحتاج توليد ZIP معقّداً ويزيد حجم المكتبة بأضعاف بدون فائدة عملية.

لماذا الجداول والصور لا تُنقَل؟

استخراج الجداول من PDF مشكلة معقّدة (تخطيط بصري، ليس بنية بيانات). الأدوات السحابيّة تستخدم نماذج ML ضخمة لا تعمل في المتصفّح. هنا نستخرج النصّ بأمانة ونوضّح الحدّ.

ماذا عن PDF الممسوحة ضوئياً؟

لن تعمل. الملفّ الممسوح صور وليس نصّاً، تحتاج OCR (التعرّف الضوئي على الحروف). للعربيّة، Tesseract.js يعمل في المتصفّح لكنّ النموذج ~50MB ودقّته متوسّطة. خدمة منفصلة قادمة.

هل تُحافظ على الاتجاه RTL؟

نعم. الناتج HTML بـ dir="rtl" lang="ar"، يفتح في Word مع الاتجاه الصحيح. التنسيق على مستوى الفقرة، ليس على مستوى الحرف، فلو كان النصّ مختلطاً عربي/إنجليزي قد تحتاج تعديلاً يدوياً.

هل يعمل مع PDF أحدث من إصدار قديم؟

نستخدم pdfjs-dist (مكتبة موزيلا الرسميّة) التي تدعم PDF 1.0 حتى أحدث المواصفات. ملفّات بصيغ غير قياسيّة أو معطوبة قد تفشل — في هذه الحالة، أعد حفظها من Preview/Adobe وحاول مرّة أخرى.

أدوات ذات صلة

أدوات أخرى في نفس التصنيف قد تفيدك على ArabToolBox.

أدوات قد تهمّك