ai
Permite crawlers de IA no robots.txt
O MetricSpot lê o robots.txt para ver se o GPTBot, ClaudeBot, PerplexityBot, Google-Extended e outros crawlers de IA têm autorização para indexar o teu conteúdo.
O que esta verificação faz
Obtém o /robots.txt e analisa cada bloco User-agent para encontrar os principais crawlers de treino de IA e de answer-engine:
- GPTBot (OpenAI — treino e navegação do ChatGPT)
- ChatGPT-User (OpenAI — quando o ChatGPT navega em nome de um utilizador)
- ClaudeBot (Anthropic — treino do Claude)
- Claude-Web / anthropic-ai (nomes antigos de crawlers da Anthropic)
- PerplexityBot (motor de respostas Perplexity)
- Google-Extended (opt-in de treino do Gemini do Google — separado do Googlebot)
- CCBot (Common Crawl, alimenta muitos datasets de IA)
- cohere-ai (Cohere)
- Bytespider (IA da ByteDance / TikTok)
- Meta-ExternalAgent (treino de IA da Meta)
- applebot-extended (opt-in de treino da Apple Intelligence — separado do Applebot)
A verificação falha quando um ou mais destes estão explicitamente proibidos (Disallow: /) e o teu perfil de auditoria é “Descoberta por IA: permitir”.
Porque é importante
Motores de respostas e chatbots estão a tornar-se uma fonte de tráfego relevante — Perplexity, ChatGPT, Claude e Google AI Overviews mostram citações para páginas de origem, e os cliques dessas citações já rivalizam com referrals de algumas plataformas sociais.
A compensação é real e não é unívoca:
- Permitir crawlers de IA significa que o teu conteúdo é citado em respostas e referenciado com ligação. A descoberta melhora; o reconhecimento de marca melhora; alguns cliques chegam.
- Bloquear crawlers de IA impede o teu conteúdo de ser usado como dados de treino (pelos que respeitam o robots.txt — nem todos o fazem). Preservas a “escassez” do teu conteúdo, mas também desistes de ser citado em respostas que as pessoas iriam ver.
Sites que monetizam com anúncios ou têm conteúdo único e difícil de replicar (editoras de notícias, investigação paga) bloqueiam com frequência. Sites que monetizam com vendas de produto ou geração de leads costumam permitir — ser citado como a resposta autorizada é marketing gratuito de notoriedade de marca.
Não há resposta universal certa. Esta verificação dispara quando a tua configuração não corresponde ao perfil de auditoria que selecionaste. A correção é permiti-los (se queres tráfego de motores de respostas) ou reconhecer o bloqueio deliberado.
Como corrigir
Para permitir todos os principais crawlers de IA, coloca isto no topo do robots.txt:
# Permitir crawlers de IA explicitamente
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: CCBot
Allow: /
User-agent: anthropic-ai
Allow: /
User-agent: cohere-ai
Allow: /
User-agent: applebot-extended
Allow: /
User-agent: Meta-ExternalAgent
Allow: /
# Sitemap no fim
Sitemap: https://yourdomain.com/sitemap.xml
Estritamente, não precisas de os listar — se nenhuma regra corresponder a um user-agent, o crawler é permitido por defeito. Mas listá-los explicitamente é um sinal público de que os recebes bem, e torna a tua intenção inequívoca quando surge um crawler novo e tens de decidir.
Para os bloquear a todos (opt-out):
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
Permissão seletiva. Alguns sites bloqueiam crawlers de treino mas permitem agentes de fetch ao vivo:
# Bloquear scrapers de dados de treino
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
# Permitir fetches on-demand (as citações voltam como ligações)
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Claude-Web
Allow: /
Bloqueios ao nível do servidor. O robots.txt é uma convenção de cortesia — só os crawlers que a respeitam é que a obedecem. Para um bloqueio duro, acrescenta correspondência de user-agent no nginx:
if ($http_user_agent ~* (GPTBot|ClaudeBot|CCBot|anthropic-ai)) {
return 403;
}
Combina com agents.txt (uma convenção mais recente que o MetricSpot também verifica — vê o doc agents.txt) para uma política estruturada por bot, legível por máquina, para lá dos wildcards do robots.txt.
Audita por ti — curl https://yourdomain.com/robots.txt e confirma que os bloqueios/permissões correspondem à tua intenção. Depois verifica a deteção Permitir crawlers de IA na próxima auditoria.
Perguntas frequentes
Bloquear o GPTBot remove o meu conteúdo do ChatGPT?
Impede futuros crawls de indexar o teu site, mas o conteúdo já presente em dados de treino fica lá. Não há remoção retroativa — a OpenAI não a oferece. Bloquear agora significa que futuras versões do modelo não verão o teu novo conteúdo.
E as ferramentas de IA que ignoram o robots.txt?
Uma lista crescente de scrapers ignora o robots.txt por completo ou falsifica user-agents. Para esses, o robots.txt é inútil e precisas de filtragem ao nível do servidor (regras de user-agent no nginx, bot management do Cloudflare, bloqueios de IP). A abordagem robots.txt trata dos 80% bem-comportados.
Devo permitir especificamente o Google-Extended?
O Google-Extended é o crawler de dados de treino do Google para o Gemini, separado do Googlebot (que continua a indexar-te para a pesquisa normal). Bloquear o Google-Extended não afeta o teu ranking de pesquisa; permiti-lo deixa o teu conteúdo aparecer em respostas do Gemini. A maioria dos sites com intenção de descoberta por IA permitem-no.
Fontes
Última atualização 2026-05-11