ما هو robots.txt وما الذي تغيّر في 2026
robots.txt هو ملف نصّي بسيط في جذر النطاق يُخبر زواحف الويب أيّ المسارات يمكنها الزحف عليها. المعيار وُضِع عام 1994، وكان طوال 30 سنة شأناً تقنياً يعرفه مهندسو SEO فقط. ثمّ جاء عام 2023، وفجأة صار مركز نقاش حول حقوق النشر، تدريب الذكاء الاصطناعي، والملكيّة الفكريّة.
التغيّر الجوهري: ظهور GPTBot (OpenAI)، ClaudeBot (Anthropic)، Google-Extended (Google)، PerplexityBot، Applebot-Extended. كل واحد منها يزحف بهدف مختلف عن Googlebot التقليدي — ليس لإظهار صفحتك في نتائج بحث، بل لتدريب نموذج لغوي أو لاستخراج الإجابات مباشرة.
القرار الجديد الذي يواجه كلّ ناشر: هل أسمح أم أمنع؟
القواعد النحويّة الأساسيّة
الـ robots.txt يتكوّن من «كتل» (groups)، كلّ كتلة تبدأ بـ User-agent: ثم تُتبع بسطور Allow: أو Disallow:.
User-agent: * = القاعدة الافتراضيّة لكلّ bot غير مذكور بالاسم.
Disallow: / = حظر كامل للموقع.
Disallow: (فارغ) أو Allow: / = سماح كامل.
Disallow: /admin/ = حظر مسار محدّد. الـ / في النهاية مهمّ — بدونه قد يطابق ملفّات تبدأ بـ admin.
الترتيب بين الكتل لا يهمّ. الزاحف يقرأ الملف كاملاً، يبحث عن أكثر User-agent تطابقاً مع اسمه، ويتبع كتلته.
الـ AI Bots التسعة الأهم
GPTBot (OpenAI): يزحف لتدريب GPT-4 وما بعده. حظره لا يمنع ChatGPT Search من الوصول إن سُئل عن موقعك مباشرة، لكن يمنع تدريب نماذج جديدة.
OAI-SearchBot (OpenAI): زاحف منفصل لـ ChatGPT Search. اسمح به إن أردت ظهوراً في إجابات ChatGPT.
ClaudeBot (Anthropic): يزحف لتدريب Claude. سياسة Anthropic أكثر تحفّظاً من OpenAI في استخدام البيانات.
PerplexityBot (Perplexity): يستشهد بمحتواك في إجابات Perplexity مع ذكر المصدر. حظره يمنعك من الظهور كاستشهاد.
Google-Extended (Google): يدرّب Gemini و AI Overviews. حظره يمنعك من الظهور في AI Overviews. هذا قرار صعب — قد يقلّل ترافيك Google بشكل كبير.
Applebot-Extended (Apple): يدرّب Apple Intelligence و Siri الجديدة.
CCBot (Common Crawl): مصدر بيانات تدريب مفتوح يستخدمه معظم نماذج LLM. حظره مهمّ إن كنت لا تريد بياناتك في أي نموذج.
Bytespider (ByteDance/TikTok): يجمع بيانات لـ Doubao وغيره.
Amazonbot (Amazon): تدريب Alexa.
إستراتيجيات المنع والسماح
هناك أربع إستراتيجيّات شائعة. اختر بناءً على نموذج عملك:
الإستراتيجيّة الانفتاحيّة — اسمح لكل الـ AI Bots. تستفيد من ظهور كثيف في إجابات AI، تخسر «قيمة» نقل القارئ لموقعك (Perplexity تستشهد بالرابط، ChatGPT أحياناً لا). مناسبة للمواقع التي تربح من العلامة التجاريّة لا من إعلانات الصفحة.
الإستراتيجيّة الانعزاليّة — احظر كلّ الـ AI Bots. تحافظ على ترافيك الصفحات الإعلانيّة كاملاً، لكن تختفي من إجابات AI. مناسبة للمواقع التي تعتمد كلّياً على CPC أو Ad Impressions.
الإستراتيجيّة الانتقائيّة (الأشهر) — اسمح بـ Perplexity و Google-Extended (لأنّهما يَستشهدان ويُحوِّلان زيارات)، احظر GPTBot و CCBot و ClaudeBot (لأنّها للتدريب فقط). هذا التوازن يجلب القارئ ويمنع التدريب على محتواك.
الإستراتيجيّة المؤجَّلة — اسمح بكلّ شيء الآن، أعِد التقييم كل ربع سنة بناءً على بيانات Google Analytics و Bing Webmaster Tools.
حقائق غير شائعة عن robots.txt
robots.txt ليس أمناً. هو إشارة احترام، لا حماية. الـ Bots السيّئة (Scraper Bots، Vulnerability Scanners) تتجاهله كلّياً. لحماية الملفّات الحسّاسة، استخدم مصادقة أو حظر IP أو Web Application Firewall.
الحظر في robots.txt لا يمنع الفهرسة. إن كان لديك صفحة محظورة لكن مرتبط بها من موقع آخر، Google قد يُدرجها في الفهرس بـ «No description» (لأنّه لا يستطيع زيارتها). لمنع الفهرسة فعلياً، استخدم noindex ميتا تاج وليس robots.txt.
المسار حسّاس لحالة الأحرف. /Admin و /admin مختلفان في robots.txt.
الـ AI Bots بعضها لا تَحترم robots.txt كلّياً. تحقيقات WIRED و 404 Media في 2024 كشفت أن بعض الـ scrapers الجديدة (خاصّة الصينيّة) تتجاهل القواعد. هذا يُحتّم استخدام WAF لمن يحتاج حماية حقيقيّة.
أفضل الممارسات في 2026
1. اعرض robots.txt دائماً على الجذر فقط: https://example.com/robots.txt. الـ subdomains لها robots.txt منفصلة (blog.example.com/robots.txt).
2. أضِف الـ sitemap في robots.txt: السطر Sitemap: https://example.com/sitemap.xml. كل الزواحف الحديثة تستفيد منه.
3. لا تحظر CSS و JS. حظر /assets/ أو /static/ يمنع Google من رؤية تصميم صفحتك، وقد يُصنّفها سيّئة من ناحية UX.
4. لا تستخدم Crawl-delay إلا للضرورة. هو يبطئ الفهرسة بشكل كبير. استخدمه إن كان خادمك حقّاً يعاني تحت الضغط، وحتّى ذلك الحين 1–2 ثانية كافية.
5. اختبر في Google Search Console. أداة robots.txt Tester تتيح إدخال رابط ومعرفة هل سيُحظر أم لا.
ملاحظة قانونيّة
في 2024 بدأت تظهر قضايا قانونيّة حول استخدام Bots لمحتوى ناشرين رفضوها صراحة في robots.txt. السوابق القضائيّة في الولايات المتّحدة وأوروبا لا تزال غير حاسمة، لكنّ الاتجاه يميل لاعتبار تجاهل robots.txt دليلاً على «النيّة السيّئة» إن وصل النزاع للمحكمة.
النصيحة العمليّة لناشر عربي: حدِّث robots.txt بقرار واضح، وثّق التحديث بتاريخ، واحفظ نسخة. هذا يوفّر دليلاً قانونياً إن احتجت لاحقاً.
أدوات ذات صلة
أدوات أخرى مجانية على ArabToolBox، كلها تعمل في متصفّحك بدون تسجيل.
- تدقيق AEOافحص ظهور موقعك في ChatGPT, Perplexity, Gemini, Claude
- مولّد سياسة الخصوصية (PDPL)سياسة خصوصية متوافقة مع نظام حماية البيانات السعودي
- مولّد QR Codeأنشئ QR Code فوراً — 8 أنواع بما فيها فاتورة زاتكا TLV
- اختبار Regexاختبر Regex على نصوص عربية وإنجليزية — مع شرح
- مولّد Sitemap XMLابنِ sitemap.xml لموقعك مع دعم hreflang للعربية
- مولّد كلمات السركلمات سر قوية بإعدادات احترافية + قياس قوة فوري