Permite crawlers de IA no robots.txt

Q: Bloquear o GPTBot remove o meu conteúdo do ChatGPT?

Impede futuros crawls de indexar o teu site, mas o conteúdo já presente em dados de treino fica lá. Não há remoção retroativa — a OpenAI não a oferece. Bloquear agora significa que futuras versões do modelo não verão o teu novo conteúdo.

O que esta verificação faz

Obtém o /robots.txt e analisa cada bloco User-agent para encontrar os principais crawlers de treino de IA e de answer-engine:

GPTBot (OpenAI — treino e navegação do ChatGPT)
ChatGPT-User (OpenAI — quando o ChatGPT navega em nome de um utilizador)
ClaudeBot (Anthropic — treino do Claude)
Claude-Web / anthropic-ai (nomes antigos de crawlers da Anthropic)
PerplexityBot (motor de respostas Perplexity)
Google-Extended (opt-in de treino do Gemini do Google — separado do Googlebot)
CCBot (Common Crawl, alimenta muitos datasets de IA)
cohere-ai (Cohere)
Bytespider (IA da ByteDance / TikTok)
Meta-ExternalAgent (treino de IA da Meta)
applebot-extended (opt-in de treino da Apple Intelligence — separado do Applebot)

A verificação falha quando um ou mais destes estão explicitamente proibidos (Disallow: /) e o teu perfil de auditoria é “Descoberta por IA: permitir”.

Porque é importante

Motores de respostas e chatbots estão a tornar-se uma fonte de tráfego relevante — Perplexity, ChatGPT, Claude e Google AI Overviews mostram citações para páginas de origem, e os cliques dessas citações já rivalizam com referrals de algumas plataformas sociais.

A compensação é real e não é unívoca:

Permitir crawlers de IA significa que o teu conteúdo é citado em respostas e referenciado com ligação. A descoberta melhora; o reconhecimento de marca melhora; alguns cliques chegam.
Bloquear crawlers de IA impede o teu conteúdo de ser usado como dados de treino (pelos que respeitam o robots.txt — nem todos o fazem). Preservas a “escassez” do teu conteúdo, mas também desistes de ser citado em respostas que as pessoas iriam ver.

Sites que monetizam com anúncios ou têm conteúdo único e difícil de replicar (editoras de notícias, investigação paga) bloqueiam com frequência. Sites que monetizam com vendas de produto ou geração de leads costumam permitir — ser citado como a resposta autorizada é marketing gratuito de notoriedade de marca.

Não há resposta universal certa. Esta verificação dispara quando a tua configuração não corresponde ao perfil de auditoria que selecionaste. A correção é permiti-los (se queres tráfego de motores de respostas) ou reconhecer o bloqueio deliberado.

Como corrigir

Para permitir todos os principais crawlers de IA, coloca isto no topo do robots.txt:

# Permitir crawlers de IA explicitamente
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: cohere-ai
Allow: /

User-agent: applebot-extended
Allow: /

User-agent: Meta-ExternalAgent
Allow: /

# Sitemap no fim
Sitemap: https://yourdomain.com/sitemap.xml

Estritamente, não precisas de os listar — se nenhuma regra corresponder a um user-agent, o crawler é permitido por defeito. Mas listá-los explicitamente é um sinal público de que os recebes bem, e torna a tua intenção inequívoca quando surge um crawler novo e tens de decidir.

Para os bloquear a todos (opt-out):

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

Permissão seletiva. Alguns sites bloqueiam crawlers de treino mas permitem agentes de fetch ao vivo:

# Bloquear scrapers de dados de treino
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

# Permitir fetches on-demand (as citações voltam como ligações)
User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Claude-Web
Allow: /

Bloqueios ao nível do servidor. O robots.txt é uma convenção de cortesia — só os crawlers que a respeitam é que a obedecem. Para um bloqueio duro, acrescenta correspondência de user-agent no nginx:

if ($http_user_agent ~* (GPTBot|ClaudeBot|CCBot|anthropic-ai)) {
  return 403;
}

Combina com agents.txt (uma convenção mais recente que o MetricSpot também verifica — vê o doc agents.txt) para uma política estruturada por bot, legível por máquina, para lá dos wildcards do robots.txt.

Audita por ti — curl https://yourdomain.com/robots.txt e confirma que os bloqueios/permissões correspondem à tua intenção. Depois verifica a deteção Permitir crawlers de IA na próxima auditoria.

Perguntas frequentes

Bloquear o GPTBot remove o meu conteúdo do ChatGPT?

Impede futuros crawls de indexar o teu site, mas o conteúdo já presente em dados de treino fica lá. Não há remoção retroativa — a OpenAI não a oferece. Bloquear agora significa que futuras versões do modelo não verão o teu novo conteúdo.

E as ferramentas de IA que ignoram o robots.txt?

Uma lista crescente de scrapers ignora o robots.txt por completo ou falsifica user-agents. Para esses, o robots.txt é inútil e precisas de filtragem ao nível do servidor (regras de user-agent no nginx, bot management do Cloudflare, bloqueios de IP). A abordagem robots.txt trata dos 80% bem-comportados.

Devo permitir especificamente o Google-Extended?

O Google-Extended é o crawler de dados de treino do Google para o Gemini, separado do Googlebot (que continua a indexar-te para a pesquisa normal). Bloquear o Google-Extended não afeta o teu ranking de pesquisa; permiti-lo deixa o teu conteúdo aparecer em respostas do Gemini. A maioria dos sites com intenção de descoberta por IA permitem-no.