technical
Ficheiro robots.txt
O MetricSpot procura o ficheiro /robots.txt na raiz do teu domínio. É o primeiro ficheiro que qualquer crawler vai buscar — a sua ausência não é fatal, mas é um sinal que ficas a perder.
O que esta verificação faz
Faz GET a https://teudominio.com/robots.txt e confirma que devolve 200 com um ficheiro robots analisável. Um ficheiro em falta (404) ou um estado diferente de 200 faz a verificação falhar.
Porque é importante
O robots.txt é o primeiro URL que qualquer crawler — Googlebot, GPTBot, ClaudeBot, PerplexityBot, archive.org — vai buscar antes de explorar o teu site. É a tua única oportunidade para:
- Apontar os crawlers para o teu sitemap com uma linha
Sitemap:, melhorando drasticamente a descoberta de páginas que não estão ligadas a partir da homepage. - Bloquear armadilhas de crawl: calendários infinitos, filtros de pesquisa facetada, páginas de resultados de pesquisa interna.
- Permitir ou bloquear seletivamente crawlers de IA (verificação separada).
Sem um robots.txt, estás a dizer “rasteja o que encontrares, pela ordem que quiseres” — e os crawlers gastam orçamento em páginas que não te interessam.
Como corrigir
Cria /public/robots.txt (ou onde o teu servidor serve ficheiros estáticos) com, no mínimo:
User-agent: *
Allow: /
Sitemap: https://teudominio.com/sitemap.xml
Esse é o baseline de “site aberto”. Para bloquear caminhos específicos:
User-agent: *
Disallow: /admin/
Disallow: /search?
Disallow: /cart/
Sitemap: https://teudominio.com/sitemap.xml
Padrões comuns:
- WordPress: o WordPress gera um robots.txt virtual a menos que exista
/public/robots.txt. Yoast / Rank Math deixam-te editá-lo no admin. - Next.js: cria
app/robots.tsexportando um objetoMetadataRoute.Robots. - Astro: coloca um ficheiro estático
public/robots.txt.
Depois de publicar, testa com o Google Search Console → robots.txt Tester.
Perguntas frequentes
Posso bloquear crawlers que não quero?
Sim, com User-agent: GPTBot seguido de Disallow: /. Mas isso só funciona para crawlers que respeitam o robots.txt — e uma lista crescente de scrapers de IA ignora-o. Para bloqueios mesmo a sério, usa regras de user-agent ao nível do servidor.
O Disallow: impede a indexação?
Não, o Disallow: bloqueia o crawl, não a indexação. Uma página com Disallow: ainda pode aparecer nos resultados de pesquisa (sem descrição) se outros sites lhe apontarem. Para impedir indexação, usa uma meta tag noindex ou o cabeçalho X-Robots-Tag: noindex.
E se quiser permitir tudo?
O ficheiro válido mais simples é:
User-agent: *
Allow: /
Podes omitir completamente o ficheiro e o Google vai tratar como “crawl permitido para tudo”, mas perdes a referência ao sitemap e o sinal explícito.
Fontes
Última atualização 2026-05-11