Permetre rastrejadors d'IA a robots.txt

Què comprova aquesta auditoria

Obté /robots.txt i analitza cada bloc User-agent buscant els rastrejadors principals d’entrenament d’IA i motors de resposta:

GPTBot (OpenAI, entrenament i navegació de ChatGPT)
ChatGPT-User (OpenAI, quan ChatGPT navega per compte d’un usuari)
ClaudeBot (Anthropic, entrenament de Claude)
Claude-Web / anthropic-ai (noms heretats del rastrejador d’Anthropic)
PerplexityBot (motor de resposta de Perplexity)
Google-Extended (opt-in d’entrenament de Gemini de Google, separat de Googlebot)
CCBot (Common Crawl, alimenta molts datasets d’IA)
cohere-ai (Cohere)
Bytespider (ByteDance / IA de TikTok)
Meta-ExternalAgent (entrenament de Meta AI)
applebot-extended (opt-in d’entrenament d’Apple Intelligence, separat d’Applebot)

La comprovació falla quan un o més estan explícitament denegats (Disallow: /) i el teu perfil d’auditoria és “descobriment d’IA: permetre”.

Per què importa

Els motors de resposta i els chatbots s’estan convertint en una font de trànsit significativa: Perplexity, ChatGPT, Claude i les AI Overviews de Google mostren cites a pàgines d’origen, i els clics d’aquestes cites ara rivalitzen amb algunes referències de plataformes socials.

El compromís és real i no és inequívoc:

Permetre els rastrejadors d’IA vol dir que el teu contingut es cita a les respostes amb un enllaç. La descoberta millora; el reconeixement de marca millora; alguns clics arriben.
Bloquejar els rastrejadors d’IA evita que el teu contingut s’utilitzi com a dades d’entrenament (per als que respecten robots.txt, no tots). Preserves l‘“escassetat” del teu contingut, però també renuncies a ser citat en respostes que la gent veuria.

Llocs que monetitzen via anuncis o tenen contingut únic i difícil de reemplaçar (editors de notícies, recerca de pagament) sovint bloquegen. Llocs que monetitzen via vendes de producte o generació de leads habitualment permeten: ser citat com a resposta autoritzada és màrqueting gratuït de notorietat de marca.

No hi ha una resposta universalment correcta. Aquesta comprovació salta quan la teva configuració no coincideix amb el perfil d’auditoria que has seleccionat. La solució és o bé permetre’ls (si vols trànsit de motors de resposta) o bé reconèixer el bloqueig deliberat.

Com solucionar-ho

Per permetre tots els rastrejadors d’IA principals, posa això a la part de dalt de robots.txt:

# Permet els rastrejadors d'IA explícitament
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: cohere-ai
Allow: /

User-agent: applebot-extended
Allow: /

User-agent: Meta-ExternalAgent
Allow: /

# Sitemap al final
Sitemap: https://elteudomini.com/sitemap.xml

Estrictament parlant, no els has de llistar: si cap regla coincideix amb un user-agent, el rastrejador queda permès per defecte. Però llistar-los explícitament és un senyal públic que els benvingueu, i fa el teu intent inequívoc quan apareix un nou rastrejador i has de decidir.

Per bloquejar-los tots (opt-out):

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

Allow selectiu. Alguns llocs bloquegen rastrejadors d’entrenament però permeten agents de fetch en directe:

# Bloca scrapers de dades d'entrenament
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

# Permet fetches sota demanda (les cites tornen com a enllaços)
User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Claude-Web
Allow: /

Bloquejos a nivell de servidor. robots.txt és una convenció de cortesia, només els rastrejadors que la respecten l’obeeixen. Per a un bloqueig dur, afegeix una coincidència de user-agent a nginx:

if ($http_user_agent ~* (GPTBot|ClaudeBot|CCBot|anthropic-ai)) {
  return 403;
}

Combina-ho amb agents.txt (una convenció més nova que MetricSpot també comprova: consulta el doc agents.txt) per a una política per bot estructurada i llegible per màquina més enllà dels wildcards de robots.txt.

Audita’t a tu mateix, curl https://elteudomini.com/robots.txt i confirma que els blocs/allows coincideixen amb el teu intent. Després revisa la troballa de permetre rastrejadors d’IA a la teva propera auditoria.

Preguntes freqüents

Bloquejar GPTBot treu el meu contingut de ChatGPT?

Atura els rastreigs futurs d’indexar el teu lloc, però el contingut ja a les dades d’entrenament hi continua. No hi ha eliminació retroactiva, OpenAI no l’ofereix. Bloquejar ara vol dir que les futures versions del model no veuran el teu contingut nou.

I les eines d’IA que ignoren robots.txt?

Una llista creixent d’scrapers ignoren robots.txt del tot o suplanten user-agents. Per a aquests, robots.txt és inútil i necessites filtratge a nivell de servidor (regles de user-agent de nginx, gestió de bots de Cloudflare, bloqueigs d’IP). L’enfocament de robots.txt gestiona el 80% ben portat.

He de permetre específicament Google-Extended?

Google-Extended és el rastrejador de dades d’entrenament de Google per a Gemini, separat de Googlebot (que continua indexant-te per a la cerca normal). Bloquejar Google-Extended no afecta el teu posicionament de cerca; permetre’l permet que el teu contingut surti a les respostes de Gemini. La majoria de llocs amb intenció de descoberta per IA el permeten.