Autorisez les robots IA dans robots.txt

Q: Bloquer GPTBot supprime-t-il mon contenu de ChatGPT ?

Cela empêche les futurs crawls d'indexer votre site, mais le contenu déjà dans les données d'entraînement y reste. Il n'y a pas de suppression rétroactive — OpenAI n'en propose pas. Bloquer maintenant signifie que les futures versions du modèle ne verront pas votre nouveau contenu.

Ce que vérifie ce contrôle

Récupère /robots.txt et parse chaque bloc User-agent pour les principaux robots d’entraînement IA et moteurs de réponse :

GPTBot (OpenAI — entraînement et navigation ChatGPT)
ChatGPT-User (OpenAI — quand ChatGPT navigue pour le compte d’un utilisateur)
ClaudeBot (Anthropic — entraînement Claude)
Claude-Web / anthropic-ai (anciens noms de crawler Anthropic)
PerplexityBot (moteur de réponses Perplexity)
Google-Extended (opt-in entraînement Gemini de Google — séparé de Googlebot)
CCBot (Common Crawl, alimente de nombreux datasets IA)
cohere-ai (Cohere)
Bytespider (IA ByteDance / TikTok)
Meta-ExternalAgent (entraînement Meta AI)
applebot-extended (opt-in entraînement Apple Intelligence — séparé d’Applebot)

Le contrôle échoue quand un ou plusieurs de ces robots sont explicitement interdits (Disallow: /) et que votre profil d’audit est « AI discovery : allow ».

Pourquoi c’est important

Les moteurs de réponse et chatbots deviennent une source de trafic significative — Perplexity, ChatGPT, Claude et Google AI Overviews font tous remonter des citations vers les pages sources, et les clics venant de ces citations rivalisent désormais avec certains référents de plateformes sociales.

Le compromis est réel et pas sans ambiguïté :

Autoriser les robots IA signifie que votre contenu est cité dans les réponses avec un lien. La découverte s’améliore ; la reconnaissance de marque s’améliore ; quelques clics passent.
Bloquer les robots IA empêche votre contenu d’être utilisé comme données d’entraînement (pour ceux qui respectent robots.txt — pas tous le font). Vous préservez la « rareté » de votre contenu, mais vous renoncez aussi à être cité dans les réponses que les gens verraient sinon.

Les sites qui se monétisent via la publicité ou ont un contenu unique et difficile à remplacer (éditeurs de presse, recherche payante) bloquent souvent. Les sites qui se monétisent via la vente de produits ou la génération de leads autorisent généralement — être cité comme la réponse autoritative est du marketing de notoriété gratuit.

Il n’y a pas de réponse universelle. Ce contrôle se déclenche quand votre config ne correspond pas au profil d’audit que vous avez sélectionné. La correction est soit de les autoriser (si vous voulez du trafic de moteurs de réponse) soit d’assumer le blocage délibéré.

Comment le corriger

Pour autoriser tous les principaux robots IA, mettez ceci en haut de robots.txt :

# Autoriser explicitement les robots IA
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: cohere-ai
Allow: /

User-agent: applebot-extended
Allow: /

User-agent: Meta-ExternalAgent
Allow: /

# Sitemap en dernier
Sitemap: https://yourdomain.com/sitemap.xml

Vous n’avez pas strictement besoin de les lister — si aucune règle ne correspond à un user-agent, le crawler est autorisé par défaut. Mais les lister explicitement est un signal public que vous les accueillez, et ça rend votre intention non ambiguë quand un nouveau crawler apparaît et que vous devez décider.

Pour tous les bloquer (opt-out) :

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

Autorisation sélective. Certains sites bloquent les crawlers d’entraînement mais autorisent les agents de fetch en direct :

# Bloquer les scrapers de données d'entraînement
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

# Autoriser les fetchs à la demande (les citations ramènent des liens)
User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Claude-Web
Allow: /

Blocages côté serveur. robots.txt est une convention de politesse — seuls les crawlers qui la respectent obéissent. Pour un blocage dur, ajoutez un matching user-agent nginx :

if ($http_user_agent ~* (GPTBot|ClaudeBot|CCBot|anthropic-ai)) {
  return 403;
}

Couplez avec agents.txt (une convention plus récente que MetricSpot vérifie aussi — voir la doc agents.txt) pour une politique structurée par bot lisible par machine, au-delà des wildcards de robots.txt.

Auditez vous-même — curl https://yourdomain.com/robots.txt et confirmez que les blocages/autorisations correspondent à votre intention. Puis vérifiez le résultat Autoriser les robots IA dans votre prochain audit.

Questions fréquentes

Bloquer GPTBot supprime-t-il mon contenu de ChatGPT ?

Cela empêche les futurs crawls d’indexer votre site, mais le contenu déjà dans les données d’entraînement y reste. Il n’y a pas de suppression rétroactive — OpenAI n’en propose pas. Bloquer maintenant signifie que les futures versions du modèle ne verront pas votre nouveau contenu.

Et les outils IA qui ignorent robots.txt ?

Une liste croissante de scrapers ignore robots.txt entièrement ou usurpe les user-agents. Pour ceux-là, robots.txt est inutile et vous avez besoin de filtrage côté serveur (règles user-agent nginx, gestion de bot Cloudflare, blocs IP). L’approche robots.txt gère les 80 % bien comportés.

Devrais-je autoriser Google-Extended spécifiquement ?

Google-Extended est le crawler d’entraînement de Google pour Gemini, séparé de Googlebot (qui continue de vous indexer pour la recherche normale). Bloquer Google-Extended n’affecte pas votre classement de recherche ; l’autoriser laisse votre contenu apparaître dans les réponses Gemini. La plupart des sites avec une intention de découverte IA l’autorisent.