هل يجب حظر GPTBot و ClaudeBot؟

قرار يعتمد على نموذج عملك. إن كنت تربح من الإعلانات، حظرها يحمي ترافيكك. إن كنت تربح من العلامة التجاريّة، السماح بـ Perplexity و Google-Extended يجلب ظهوراً مفيداً. الإستراتيجيّة الأشهر: انتقائيّة.

ما الفرق بين GPTBot و OAI-SearchBot؟

GPTBot يزحف لتدريب نماذج OpenAI الجديدة. OAI-SearchBot منفصل ويزحف لـ ChatGPT Search. يمكنك حظر الأوّل والسماح للثاني للظهور في ChatGPT Search دون تدريب.

هل المسار حسّاس لحالة الأحرف؟

نعم. /Admin و /admin مسارَان مختلفَان تماماً في robots.txt. تأكّد من مطابقة الحالة بدقّة.

هل أحظر CSS و JS؟

لا أبداً. حظر /assets/ أو /static/ يمنع Google من رؤية تصميم صفحتك، وقد يُصنّفها سيّئة UX. اسمح بكل الموارد الثابتة دائماً.

مولّد robots.txt

ما هو robots.txt وما الذي تغيّر في 2026

robots.txt هو ملف نصّي بسيط في جذر النطاق يُخبر زواحف الويب أيّ المسارات يمكنها الزحف عليها. المعيار وُضِع عام 1994، وكان طوال 30 سنة شأناً تقنياً يعرفه مهندسو SEO فقط. ثمّ جاء عام 2023، وفجأة صار مركز نقاش حول حقوق النشر، تدريب الذكاء الاصطناعي، والملكيّة الفكريّة.

التغيّر الجوهري: ظهور GPTBot (OpenAI)، ClaudeBot (Anthropic)، Google-Extended (Google)، PerplexityBot، Applebot-Extended. كل واحد منها يزحف بهدف مختلف عن Googlebot التقليدي — ليس لإظهار صفحتك في نتائج بحث، بل لتدريب نموذج لغوي أو لاستخراج الإجابات مباشرة.

القرار الجديد الذي يواجه كلّ ناشر: هل أسمح أم أمنع؟

القواعد النحويّة الأساسيّة

الـ robots.txt يتكوّن من «كتل» (groups)، كلّ كتلة تبدأ بـ User-agent: ثم تُتبع بسطور Allow: أو Disallow:.

User-agent: * = القاعدة الافتراضيّة لكلّ bot غير مذكور بالاسم.

Disallow: / = حظر كامل للموقع.

Disallow: (فارغ) أو Allow: / = سماح كامل.

Disallow: /admin/ = حظر مسار محدّد. الـ / في النهاية مهمّ — بدونه قد يطابق ملفّات تبدأ بـ admin.

الترتيب بين الكتل لا يهمّ. الزاحف يقرأ الملف كاملاً، يبحث عن أكثر User-agent تطابقاً مع اسمه، ويتبع كتلته.

الـ AI Bots التسعة الأهم

GPTBot (OpenAI): يزحف لتدريب GPT-4 وما بعده. حظره لا يمنع ChatGPT Search من الوصول إن سُئل عن موقعك مباشرة، لكن يمنع تدريب نماذج جديدة.

OAI-SearchBot (OpenAI): زاحف منفصل لـ ChatGPT Search. اسمح به إن أردت ظهوراً في إجابات ChatGPT.

ClaudeBot (Anthropic): يزحف لتدريب Claude. سياسة Anthropic أكثر تحفّظاً من OpenAI في استخدام البيانات.

PerplexityBot (Perplexity): يستشهد بمحتواك في إجابات Perplexity مع ذكر المصدر. حظره يمنعك من الظهور كاستشهاد.

Google-Extended (Google): يدرّب Gemini و AI Overviews. حظره يمنعك من الظهور في AI Overviews. هذا قرار صعب — قد يقلّل ترافيك Google بشكل كبير.

Applebot-Extended (Apple): يدرّب Apple Intelligence و Siri الجديدة.

CCBot (Common Crawl): مصدر بيانات تدريب مفتوح يستخدمه معظم نماذج LLM. حظره مهمّ إن كنت لا تريد بياناتك في أي نموذج.

Bytespider (ByteDance/TikTok): يجمع بيانات لـ Doubao وغيره.

Amazonbot (Amazon): تدريب Alexa.

إستراتيجيات المنع والسماح

هناك أربع إستراتيجيّات شائعة. اختر بناءً على نموذج عملك:

الإستراتيجيّة الانفتاحيّة — اسمح لكل الـ AI Bots. تستفيد من ظهور كثيف في إجابات AI، تخسر «قيمة» نقل القارئ لموقعك (Perplexity تستشهد بالرابط، ChatGPT أحياناً لا). مناسبة للمواقع التي تربح من العلامة التجاريّة لا من إعلانات الصفحة.

الإستراتيجيّة الانعزاليّة — احظر كلّ الـ AI Bots. تحافظ على ترافيك الصفحات الإعلانيّة كاملاً، لكن تختفي من إجابات AI. مناسبة للمواقع التي تعتمد كلّياً على CPC أو Ad Impressions.

الإستراتيجيّة الانتقائيّة (الأشهر) — اسمح بـ Perplexity و Google-Extended (لأنّهما يَستشهدان ويُحوِّلان زيارات)، احظر GPTBot و CCBot و ClaudeBot (لأنّها للتدريب فقط). هذا التوازن يجلب القارئ ويمنع التدريب على محتواك.

الإستراتيجيّة المؤجَّلة — اسمح بكلّ شيء الآن، أعِد التقييم كل ربع سنة بناءً على بيانات Google Analytics و Bing Webmaster Tools.

حقائق غير شائعة عن robots.txt

robots.txt ليس أمناً. هو إشارة احترام، لا حماية. الـ Bots السيّئة (Scraper Bots، Vulnerability Scanners) تتجاهله كلّياً. لحماية الملفّات الحسّاسة، استخدم مصادقة أو حظر IP أو Web Application Firewall.

الحظر في robots.txt لا يمنع الفهرسة. إن كان لديك صفحة محظورة لكن مرتبط بها من موقع آخر، Google قد يُدرجها في الفهرس بـ «No description» (لأنّه لا يستطيع زيارتها). لمنع الفهرسة فعلياً، استخدم noindex ميتا تاج وليس robots.txt.

المسار حسّاس لحالة الأحرف. /Admin و /admin مختلفان في robots.txt.

الـ AI Bots بعضها لا تَحترم robots.txt كلّياً. تحقيقات WIRED و 404 Media في 2024 كشفت أن بعض الـ scrapers الجديدة (خاصّة الصينيّة) تتجاهل القواعد. هذا يُحتّم استخدام WAF لمن يحتاج حماية حقيقيّة.

أفضل الممارسات في 2026

1. اعرض robots.txt دائماً على الجذر فقط: https://example.com/robots.txt. الـ subdomains لها robots.txt منفصلة (blog.example.com/robots.txt).

2. أضِف الـ sitemap في robots.txt: السطر Sitemap: https://example.com/sitemap.xml. كل الزواحف الحديثة تستفيد منه.

3. لا تحظر CSS و JS. حظر /assets/ أو /static/ يمنع Google من رؤية تصميم صفحتك، وقد يُصنّفها سيّئة من ناحية UX.

4. لا تستخدم Crawl-delay إلا للضرورة. هو يبطئ الفهرسة بشكل كبير. استخدمه إن كان خادمك حقّاً يعاني تحت الضغط، وحتّى ذلك الحين 1–2 ثانية كافية.

5. اختبر في Google Search Console. أداة robots.txt Tester تتيح إدخال رابط ومعرفة هل سيُحظر أم لا.

ملاحظة قانونيّة

في 2024 بدأت تظهر قضايا قانونيّة حول استخدام Bots لمحتوى ناشرين رفضوها صراحة في robots.txt. السوابق القضائيّة في الولايات المتّحدة وأوروبا لا تزال غير حاسمة، لكنّ الاتجاه يميل لاعتبار تجاهل robots.txt دليلاً على «النيّة السيّئة» إن وصل النزاع للمحكمة.

النصيحة العمليّة لناشر عربي: حدِّث robots.txt بقرار واضح، وثّق التحديث بتاريخ، واحفظ نسخة. هذا يوفّر دليلاً قانونياً إن احتجت لاحقاً.

أدوات ذات صلة

أدوات أخرى مجانية على ArabToolBox، كلها تعمل في متصفّحك بدون تسجيل.

مولّد robots.txt

سياسات الـ Bots

robots.txt

robots.txt: التعامل مع AI Crawlers و LLM Bots

ما هو robots.txt وما الذي تغيّر في 2026

القواعد النحويّة الأساسيّة

الـ AI Bots التسعة الأهم

إستراتيجيات المنع والسماح

حقائق غير شائعة عن robots.txt

أفضل الممارسات في 2026

ملاحظة قانونيّة

أدوات ذات صلة

أسئلة شائعة

هل يجب حظر GPTBot و ClaudeBot؟

ما الفرق بين GPTBot و OAI-SearchBot؟

هل robots.txt يضمن عدم الفهرسة؟

هل المسار حسّاس لحالة الأحرف؟

هل أحظر CSS و JS؟

أدوات ذات صلة

أدوات قد تهمّك

تدقيق AEO

مولّد سياسة الخصوصية (PDPL)

مولّد QR Code

اختبار Regex

مولّد Sitemap XML

أدوات نوصي بها

Name.com

Hostinger