Ficheiro robots.txt - Docs do MetricSpot

Q: Posso bloquear crawlers que não quero?

Sim, com User-agent: GPTBot seguido de Disallow: /. Mas isso só funciona para crawlers que respeitam o robots.txt — e uma lista crescente de scrapers de IA ignora-o. Para bloqueios mesmo a sério, usa regras de user-agent ao nível do servidor.

Q: O `Disallow:` impede a indexação?

Não, o Disallow: bloqueia o crawl, não a indexação. Uma página com Disallow: ainda pode aparecer nos resultados de pesquisa (sem descrição) se outros sites lhe apontarem. Para impedir indexação, usa uma meta tag noindex ou o cabeçalho X-Robots-Tag: noindex.

Q: E se quiser permitir tudo?

O ficheiro válido mais simples é: ` User-agent: * Allow: / ` Podes omitir completamente o ficheiro e o Google vai tratar como "crawl permitido para tudo", mas perdes a referência ao sitemap e o sinal explícito.

O que esta verificação faz

Faz GET a https://teudominio.com/robots.txt e confirma que devolve 200 com um ficheiro robots analisável. Um ficheiro em falta (404) ou um estado diferente de 200 faz a verificação falhar.

Porque é importante

O robots.txt é o primeiro URL que qualquer crawler — Googlebot, GPTBot, ClaudeBot, PerplexityBot, archive.org — vai buscar antes de explorar o teu site. É a tua única oportunidade para:

Apontar os crawlers para o teu sitemap com uma linha Sitemap:, melhorando drasticamente a descoberta de páginas que não estão ligadas a partir da homepage.
Bloquear armadilhas de crawl: calendários infinitos, filtros de pesquisa facetada, páginas de resultados de pesquisa interna.
Permitir ou bloquear seletivamente crawlers de IA (verificação separada).

Sem um robots.txt, estás a dizer “rasteja o que encontrares, pela ordem que quiseres” — e os crawlers gastam orçamento em páginas que não te interessam.

Como corrigir

Cria /public/robots.txt (ou onde o teu servidor serve ficheiros estáticos) com, no mínimo:

User-agent: *
Allow: /

Sitemap: https://teudominio.com/sitemap.xml

Esse é o baseline de “site aberto”. Para bloquear caminhos específicos:

User-agent: *
Disallow: /admin/
Disallow: /search?
Disallow: /cart/

Sitemap: https://teudominio.com/sitemap.xml

Padrões comuns:

WordPress: o WordPress gera um robots.txt virtual a menos que exista /public/robots.txt. Yoast / Rank Math deixam-te editá-lo no admin.
Next.js: cria app/robots.ts exportando um objeto MetadataRoute.Robots.
Astro: coloca um ficheiro estático public/robots.txt.

Depois de publicar, testa com o Google Search Console → robots.txt Tester.

Perguntas frequentes

Posso bloquear crawlers que não quero?

Sim, com User-agent: GPTBot seguido de Disallow: /. Mas isso só funciona para crawlers que respeitam o robots.txt — e uma lista crescente de scrapers de IA ignora-o. Para bloqueios mesmo a sério, usa regras de user-agent ao nível do servidor.

O `Disallow:` impede a indexação?

Não, o Disallow: bloqueia o crawl, não a indexação. Uma página com Disallow: ainda pode aparecer nos resultados de pesquisa (sem descrição) se outros sites lhe apontarem. Para impedir indexação, usa uma meta tag noindex ou o cabeçalho X-Robots-Tag: noindex.

E se quiser permitir tudo?

O ficheiro válido mais simples é:

User-agent: *
Allow: /

Podes omitir completamente o ficheiro e o Google vai tratar como “crawl permitido para tudo”, mas perdes a referência ao sitemap e o sinal explícito.