أمان وتقنية

مولّد robots.txt

ابنِ robots.txt يدعم AI Crawlers + احجب ما تريد

AI CrawlersGooglebot + بقيةاختبار

سياسات الـ Bots

اختر سياسة لكل bot. سماح = افتح المحتوى. حظر = أغلق كل الموقع. مخصّص = أضف مسارات Disallow محدّدة.

كل الـ Bots (*)

القاعدة الاحتياطية لكل bot غير مذكور.

Googlebot (Googlebot)

زاحف بحث Google التقليدي.

Bingbot (Bingbot)

زاحف بحث Microsoft Bing.

Google-Extended (Google-Extended)

يدرّب Gemini وميزات AI من Google. اسمحه إن أردت ظهوراً في AI Overviews.

GPTBot (GPTBot)

زاحف OpenAI لتدريب ChatGPT. امنعه إن لم ترغب.

ClaudeBot (ClaudeBot)

زاحف Anthropic لتدريب Claude.

PerplexityBot (PerplexityBot)

زاحف Perplexity للاستشهاد المباشر بالمحتوى.

Applebot-Extended (Applebot-Extended)

زاحف Apple Intelligence.

CCBot (CCBot)

Common Crawl — تستخدمه معظم نماذج LLM للتدريب.

robots.txt

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: CCBot
Disallow: /

Sitemap: https://example.com/sitemap.xml
قواعد عملية:
  • ارفع robots.txt إلى جذر النطاق فقط: https://example.com/robots.txt.
  • Disallow: / = حظر كامل. Disallow: (فارغ) = سماح كامل.
  • الترتيب لا يُهمّ — الزاحف يقرأ الـ User-agent الأكثر تطابقاً مع اسمه.
  • الـ robots.txt ليس أمناً — أي بشر/bot سيء يتجاهله. للحماية الفعلية استخدم مصادقة.
  • اختبر النتيجة في Google Search Console → robots.txt Tester.

دليل شامل

robots.txt: التعامل مع AI Crawlers و LLM Bots

كيف تتحكّم في زحف AI لمحتواك، الفرق بين Googlebot و GPTBot، ومتى تسمح ومتى تمنع.

10 دقائق قراءة·تحديث مايو 2026

ما هو robots.txt وما الذي تغيّر في 2026

robots.txt هو ملف نصّي بسيط في جذر النطاق يُخبر زواحف الويب أيّ المسارات يمكنها الزحف عليها. المعيار وُضِع عام 1994، وكان طوال 30 سنة شأناً تقنياً يعرفه مهندسو SEO فقط. ثمّ جاء عام 2023، وفجأة صار مركز نقاش حول حقوق النشر، تدريب الذكاء الاصطناعي، والملكيّة الفكريّة.

التغيّر الجوهري: ظهور GPTBot (OpenAI)، ClaudeBot (Anthropic)، Google-Extended (Google)، PerplexityBot، Applebot-Extended. كل واحد منها يزحف بهدف مختلف عن Googlebot التقليدي — ليس لإظهار صفحتك في نتائج بحث، بل لتدريب نموذج لغوي أو لاستخراج الإجابات مباشرة.

القرار الجديد الذي يواجه كلّ ناشر: هل أسمح أم أمنع؟

القواعد النحويّة الأساسيّة

الـ robots.txt يتكوّن من «كتل» (groups)، كلّ كتلة تبدأ بـ User-agent: ثم تُتبع بسطور Allow: أو Disallow:.

User-agent: * = القاعدة الافتراضيّة لكلّ bot غير مذكور بالاسم.

Disallow: / = حظر كامل للموقع.

Disallow: (فارغ) أو Allow: / = سماح كامل.

Disallow: /admin/ = حظر مسار محدّد. الـ / في النهاية مهمّ — بدونه قد يطابق ملفّات تبدأ بـ admin.

الترتيب بين الكتل لا يهمّ. الزاحف يقرأ الملف كاملاً، يبحث عن أكثر User-agent تطابقاً مع اسمه، ويتبع كتلته.

الـ AI Bots التسعة الأهم

GPTBot (OpenAI): يزحف لتدريب GPT-4 وما بعده. حظره لا يمنع ChatGPT Search من الوصول إن سُئل عن موقعك مباشرة، لكن يمنع تدريب نماذج جديدة.

OAI-SearchBot (OpenAI): زاحف منفصل لـ ChatGPT Search. اسمح به إن أردت ظهوراً في إجابات ChatGPT.

ClaudeBot (Anthropic): يزحف لتدريب Claude. سياسة Anthropic أكثر تحفّظاً من OpenAI في استخدام البيانات.

PerplexityBot (Perplexity): يستشهد بمحتواك في إجابات Perplexity مع ذكر المصدر. حظره يمنعك من الظهور كاستشهاد.

Google-Extended (Google): يدرّب Gemini و AI Overviews. حظره يمنعك من الظهور في AI Overviews. هذا قرار صعب — قد يقلّل ترافيك Google بشكل كبير.

Applebot-Extended (Apple): يدرّب Apple Intelligence و Siri الجديدة.

CCBot (Common Crawl): مصدر بيانات تدريب مفتوح يستخدمه معظم نماذج LLM. حظره مهمّ إن كنت لا تريد بياناتك في أي نموذج.

Bytespider (ByteDance/TikTok): يجمع بيانات لـ Doubao وغيره.

Amazonbot (Amazon): تدريب Alexa.

إستراتيجيات المنع والسماح

هناك أربع إستراتيجيّات شائعة. اختر بناءً على نموذج عملك:

الإستراتيجيّة الانفتاحيّة — اسمح لكل الـ AI Bots. تستفيد من ظهور كثيف في إجابات AI، تخسر «قيمة» نقل القارئ لموقعك (Perplexity تستشهد بالرابط، ChatGPT أحياناً لا). مناسبة للمواقع التي تربح من العلامة التجاريّة لا من إعلانات الصفحة.

الإستراتيجيّة الانعزاليّة — احظر كلّ الـ AI Bots. تحافظ على ترافيك الصفحات الإعلانيّة كاملاً، لكن تختفي من إجابات AI. مناسبة للمواقع التي تعتمد كلّياً على CPC أو Ad Impressions.

الإستراتيجيّة الانتقائيّة (الأشهر) — اسمح بـ Perplexity و Google-Extended (لأنّهما يَستشهدان ويُحوِّلان زيارات)، احظر GPTBot و CCBot و ClaudeBot (لأنّها للتدريب فقط). هذا التوازن يجلب القارئ ويمنع التدريب على محتواك.

الإستراتيجيّة المؤجَّلة — اسمح بكلّ شيء الآن، أعِد التقييم كل ربع سنة بناءً على بيانات Google Analytics و Bing Webmaster Tools.

حقائق غير شائعة عن robots.txt

robots.txt ليس أمناً. هو إشارة احترام، لا حماية. الـ Bots السيّئة (Scraper Bots، Vulnerability Scanners) تتجاهله كلّياً. لحماية الملفّات الحسّاسة، استخدم مصادقة أو حظر IP أو Web Application Firewall.

الحظر في robots.txt لا يمنع الفهرسة. إن كان لديك صفحة محظورة لكن مرتبط بها من موقع آخر، Google قد يُدرجها في الفهرس بـ «No description» (لأنّه لا يستطيع زيارتها). لمنع الفهرسة فعلياً، استخدم noindex ميتا تاج وليس robots.txt.

المسار حسّاس لحالة الأحرف. /Admin و /admin مختلفان في robots.txt.

الـ AI Bots بعضها لا تَحترم robots.txt كلّياً. تحقيقات WIRED و 404 Media في 2024 كشفت أن بعض الـ scrapers الجديدة (خاصّة الصينيّة) تتجاهل القواعد. هذا يُحتّم استخدام WAF لمن يحتاج حماية حقيقيّة.

أفضل الممارسات في 2026

1. اعرض robots.txt دائماً على الجذر فقط: https://example.com/robots.txt. الـ subdomains لها robots.txt منفصلة (blog.example.com/robots.txt).

2. أضِف الـ sitemap في robots.txt: السطر Sitemap: https://example.com/sitemap.xml. كل الزواحف الحديثة تستفيد منه.

3. لا تحظر CSS و JS. حظر /assets/ أو /static/ يمنع Google من رؤية تصميم صفحتك، وقد يُصنّفها سيّئة من ناحية UX.

4. لا تستخدم Crawl-delay إلا للضرورة. هو يبطئ الفهرسة بشكل كبير. استخدمه إن كان خادمك حقّاً يعاني تحت الضغط، وحتّى ذلك الحين 1–2 ثانية كافية.

5. اختبر في Google Search Console. أداة robots.txt Tester تتيح إدخال رابط ومعرفة هل سيُحظر أم لا.

أدوات ذات صلة

أدوات أخرى مجانية على ArabToolBox، كلها تعمل في متصفّحك بدون تسجيل.

أسئلة شائعة

هل يجب حظر GPTBot و ClaudeBot؟

قرار يعتمد على نموذج عملك. إن كنت تربح من الإعلانات، حظرها يحمي ترافيكك. إن كنت تربح من العلامة التجاريّة، السماح بـ Perplexity و Google-Extended يجلب ظهوراً مفيداً. الإستراتيجيّة الأشهر: انتقائيّة.

ما الفرق بين GPTBot و OAI-SearchBot؟

GPTBot يزحف لتدريب نماذج OpenAI الجديدة. OAI-SearchBot منفصل ويزحف لـ ChatGPT Search. يمكنك حظر الأوّل والسماح للثاني للظهور في ChatGPT Search دون تدريب.

هل robots.txt يضمن عدم الفهرسة؟

لا. الحظر في robots.txt يمنع الزحف فقط. إذا كانت صفحتك مرتبط بها من موقع آخر، Google قد يُدرجها في الفهرس بـ "No description". لمنع الفهرسة فعلياً استخدم noindex meta tag.

هل المسار حسّاس لحالة الأحرف؟

نعم. /Admin و /admin مسارَان مختلفَان تماماً في robots.txt. تأكّد من مطابقة الحالة بدقّة.

هل أحظر CSS و JS؟

لا أبداً. حظر /assets/ أو /static/ يمنع Google من رؤية تصميم صفحتك، وقد يُصنّفها سيّئة UX. اسمح بكل الموارد الثابتة دائماً.

أدوات ذات صلة

أدوات أخرى في نفس التصنيف قد تفيدك على ArabToolBox.

أدوات قد تهمّك