KI-Crawler in robots.txt erlauben

Q: Entfernt das Blocken von GPTBot meinen Content aus ChatGPT?

Es stoppt zukünftige Crawls, deine Site zu indexieren, aber Inhalt, der bereits in den Trainingsdaten ist, bleibt dort. Eine rückwirkende Entfernung gibt es nicht — OpenAI bietet keine an. Heute zu blockieren heißt: künftige Modellversionen sehen deinen neuen Content nicht.

Was diese Prüfung macht

Lädt /robots.txt und parst jeden User-agent-Block für die wichtigen KI-Trainings- und Antwort-Engine-Crawler:

GPTBot (OpenAI — ChatGPT-Training und -Browsing)
ChatGPT-User (OpenAI — wenn ChatGPT im Auftrag eines Nutzers browst)
ClaudeBot (Anthropic — Claude-Training)
Claude-Web / anthropic-ai (alte Anthropic-Crawler-Namen)
PerplexityBot (Perplexity-Antwort-Engine)
Google-Extended (Googles Opt-in für Gemini-Training — getrennt vom Googlebot)
CCBot (Common Crawl, speist viele KI-Datensätze)
cohere-ai (Cohere)
Bytespider (ByteDance / TikTok-KI)
Meta-ExternalAgent (Meta-AI-Training)
applebot-extended (Apple-Intelligence-Trainings-Opt-in — getrennt vom Applebot)

Die Prüfung fällt durch, wenn einer oder mehrere davon explizit verboten sind (Disallow: /) und dein Audit-Profil auf „KI-Discovery: erlauben” steht.

Warum es wichtig ist

Antwort-Engines und Chatbots werden zur ernstzunehmenden Traffic-Quelle — Perplexity, ChatGPT, Claude und Google AI Overviews zeigen alle Quellen-Zitate auf die Originalseiten, und die Klicks daraus konkurrieren inzwischen mit manchen Social-Plattform-Referrern.

Die Abwägung ist real und nicht eindeutig:

KI-Crawler erlauben heißt: Dein Inhalt wird in Antworten zitiert und verlinkt. Discovery steigt, Markenbekanntheit steigt, ein paar Klicks kommen durch.
KI-Crawler blockieren verhindert, dass dein Inhalt als Trainingsdaten genutzt wird (für die, die robots.txt respektieren — nicht alle tun das). Du bewahrst die „Knappheit” deines Inhalts, steigst aber auch aus den Antworten aus, die Leute ohnehin sehen würden.

Sites, die über Werbung monetarisieren, oder mit einzigartigem, schwer zu ersetzendem Content (News-Verlage, kostenpflichtige Recherche) blocken oft. Sites, die über Produktverkäufe oder Lead-Gen monetarisieren, erlauben meist — als autoritative Antwort zitiert zu werden ist kostenlose Markenbekanntheit.

Es gibt keine universell richtige Antwort. Diese Prüfung feuert, wenn deine Config nicht zum gewählten Audit-Profil passt. Der Fix: entweder erlauben (wenn du Antwort-Engine-Traffic willst) oder den bewussten Block bestätigen.

Wie du es behebst

Um alle wichtigen KI-Crawler zu erlauben, setze dies oben in robots.txt:

# KI-Crawler explizit erlauben
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: cohere-ai
Allow: /

User-agent: applebot-extended
Allow: /

User-agent: Meta-ExternalAgent
Allow: /

# Sitemap zum Schluss
Sitemap: https://deine-domain.de/sitemap.xml

Strikt nötig ist die Auflistung nicht — passt keine Regel auf einen User-Agent, ist der Crawler standardmäßig erlaubt. Die explizite Auflistung ist aber ein öffentliches Signal, dass du sie willkommen heißt, und macht deine Intention unmissverständlich, wenn ein neuer Crawler auftaucht.

Alle blockieren (Opt-out):

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

Selektives Erlauben. Manche Sites blockieren Trainings-Crawler, erlauben aber Live-Fetch-Agenten:

# Trainings-Scraper blockieren
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

# On-demand-Fetches erlauben (Zitate kommen als Links zurück)
User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Claude-Web
Allow: /

Server-seitige Blocks. robots.txt ist eine Höflichkeits-Konvention — nur Crawler, die sie respektieren, halten sich dran. Für einen harten Block ergänze in nginx ein User-Agent-Matching:

if ($http_user_agent ~* (GPTBot|ClaudeBot|CCBot|anthropic-ai)) {
  return 403;
}

Kombinier das mit agents.txt (eine neuere Konvention, die MetricSpot ebenfalls prüft — siehe die Seite agents.txt) für eine maschinenlesbare Per-Bot-Policy jenseits der robots.txt-Wildcards.

Selbst auditieren — curl https://deine-domain.de/robots.txt und prüfen, ob Blocks/Allows deiner Intention entsprechen. Dann den Befund KI-Crawler erlauben beim nächsten Audit checken.

Häufig gestellte Fragen

Entfernt das Blocken von GPTBot meinen Content aus ChatGPT?

Es stoppt zukünftige Crawls, deine Site zu indexieren, aber Inhalt, der bereits in den Trainingsdaten ist, bleibt dort. Eine rückwirkende Entfernung gibt es nicht — OpenAI bietet keine an. Heute zu blockieren heißt: künftige Modellversionen sehen deinen neuen Content nicht.

Was ist mit KI-Tools, die robots.txt ignorieren?

Eine wachsende Liste von Scrapern ignoriert robots.txt komplett oder spooft den User-Agent. Bei denen ist robots.txt nutzlos, du brauchst serverseitige Filter (nginx-User-Agent-Regeln, Cloudflare-Bot-Management, IP-Blocks). Der robots.txt-Ansatz erledigt die wohlerzogenen 80 %.

Soll ich Google-Extended gezielt erlauben?

Google-Extended ist Googles Trainings-Crawler für Gemini, getrennt vom Googlebot (der dich weiter für die normale Suche indexiert). Google-Extended zu blocken hat keinen Einfluss auf dein Suchranking; es zu erlauben lässt deinen Content in Gemini-Antworten auftauchen. Die meisten Sites mit KI-Discovery-Intention erlauben es.