Permite los rastreadores de IA en robots.txt

Q: ¿Bloquear GPTBot saca mi contenido de ChatGPT?

Detiene los futuros rastreos para que no indexen tu sitio, pero el contenido que ya esté en los datos de entrenamiento se queda. No hay eliminación retroactiva — OpenAI no la ofrece. Bloquear ahora significa que las próximas versiones del modelo no verán tu contenido nuevo.

Qué comprueba esta auditoría

Descarga /robots.txt y parsea cada bloque User-agent en busca de los principales rastreadores de entrenamiento de IA y motores de respuesta:

GPTBot (OpenAI — entrenamiento y browsing de ChatGPT)
ChatGPT-User (OpenAI — cuando ChatGPT navega por encargo de un usuario)
ClaudeBot (Anthropic — entrenamiento de Claude)
Claude-Web / anthropic-ai (nombres legacy del rastreador de Anthropic)
PerplexityBot (motor de respuestas Perplexity)
Google-Extended (opt-in de Google para entrenar Gemini — separado de Googlebot)
CCBot (Common Crawl, alimenta muchos datasets de IA)
cohere-ai (Cohere)
Bytespider (ByteDance / TikTok AI)
Meta-ExternalAgent (entrenamiento de Meta AI)
applebot-extended (opt-in de entrenamiento para Apple Intelligence — separado de Applebot)

La comprobación falla cuando uno o más de estos están explícitamente bloqueados (Disallow: /) y tu perfil de auditoría es “Descubrimiento por IA: permitido”.

Por qué importa

Los motores de respuesta y los chatbots se están convirtiendo en una fuente de tráfico relevante — Perplexity, ChatGPT, Claude y Google AI Overviews muestran citas a páginas de origen, y los clics desde esas citas ya rivalizan con algunas referencias de plataformas sociales.

El trade-off es real y no es unívoco:

Permitir los rastreadores de IA significa que tu contenido se cita en las respuestas, con enlace. El descubrimiento mejora; el reconocimiento de marca mejora; algunos clics entran.
Bloquearlos evita que tu contenido se use como datos de entrenamiento (los que respetan robots.txt — no todos lo hacen). Preservas la “escasez” de tu contenido, pero también renuncias a aparecer citado en respuestas que la gente vería de otro modo.

Los sitios que monetizan con publicidad o tienen contenido único y difícil de replicar (medios de prensa, investigación de pago) suelen bloquear. Los que monetizan con ventas de producto o lead gen suelen permitirlos — aparecer citado como respuesta autorizada es marketing de marca gratuito.

No hay respuesta universalmente correcta. Esta comprobación se dispara cuando tu configuración no coincide con el perfil de auditoría que elegiste. La solución es permitirlos (si quieres tráfico de motores de respuesta) o reconocer el bloqueo deliberado.

Cómo solucionarlo

Para permitir todos los principales rastreadores de IA, pon esto al principio de robots.txt:

# Permitir explícitamente los rastreadores de IA
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: cohere-ai
Allow: /

User-agent: applebot-extended
Allow: /

User-agent: Meta-ExternalAgent
Allow: /

# Sitemap al final
Sitemap: https://tudominio.com/sitemap.xml

Estrictamente no hace falta listarlos — si ninguna regla coincide con un user-agent, el rastreador queda permitido por defecto. Pero listarlos explícitamente es una señal pública de que les das la bienvenida, y deja tu intención inequívoca cuando aparece un rastreador nuevo y tienes que decidir.

Para bloquearlos todos (opt-out):

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

Permiso selectivo. Algunos sitios bloquean los rastreadores de entrenamiento pero permiten los agentes que tiran en vivo:

# Bloquear los scrapers de datos de entrenamiento
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

# Permitir los fetches bajo demanda (las citas vuelven como enlaces)
User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Claude-Web
Allow: /

Bloqueos a nivel de servidor. robots.txt es una convención de cortesía — solo los rastreadores que la respetan la obedecen. Para un bloqueo duro, añade matching por user-agent en nginx:

if ($http_user_agent ~* (GPTBot|ClaudeBot|CCBot|anthropic-ai)) {
  return 403;
}

Combínalo con agents.txt (una convención más nueva que MetricSpot también comprueba — mira el doc de agents.txt) para una política estructurada por bot que es legible por máquina más allá de los wildcards de robots.txt.

Audítalo tú — curl https://tudominio.com/robots.txt y confirma que los bloqueos / permisos coinciden con tu intención. Luego revisa el hallazgo Permitir rastreadores de IA en tu próxima auditoría.

Preguntas frecuentes

¿Bloquear GPTBot saca mi contenido de ChatGPT?

Detiene los futuros rastreos para que no indexen tu sitio, pero el contenido que ya esté en los datos de entrenamiento se queda. No hay eliminación retroactiva — OpenAI no la ofrece. Bloquear ahora significa que las próximas versiones del modelo no verán tu contenido nuevo.

¿Y las herramientas de IA que ignoran robots.txt?

Una lista creciente de scrapers ignora robots.txt por completo o falsifica user-agents. Para esos, robots.txt es inútil y necesitas filtrado a nivel de servidor (reglas de user-agent en nginx, bot management de Cloudflare, bloqueos de IP). El enfoque de robots.txt cubre el 80% que se porta bien.

¿Debo permitir Google-Extended específicamente?

Google-Extended es el rastreador de datos de entrenamiento de Google para Gemini, separado de Googlebot (que sigue indexándote para la búsqueda normal). Bloquear Google-Extended no afecta a tu posicionamiento en búsqueda; permitirlo deja que tu contenido aparezca en las respuestas de Gemini. La mayoría de sitios con intención de descubrimiento por IA lo permiten.