Archivo robots.txt - Docs de MetricSpot

Q: ¿Puedo bloquear rastreadores que no quiero?

Sí, con User-agent: GPTBot seguido de Disallow: /. Pero solo funciona con rastreadores que respetan robots.txt, y una lista creciente de scrapers de IA lo ignora. Para bloqueos firmes, usa reglas de user-agent a nivel de servidor.

Q: ¿`Disallow:` impide la indexación?

No, Disallow: bloquea el rastreo, no la indexación. Una página con Disallow: aún puede aparecer en los resultados (sin descripción) si otros sitios la enlazan. Para impedir la indexación, usa una meta noindex o la cabecera X-Robots-Tag: noindex.

Q: ¿Y si quiero permitir todo?

El archivo válido más simple es: ` User-agent: * Allow: / ` Puedes omitir el archivo por completo y Google lo tratará como "todo el rastreo permitido", pero también pierdes la referencia al sitemap y la señal explícita.

Qué comprueba esta auditoría

Hace un GET a https://tudominio.com/robots.txt y confirma que devuelve 200 con un archivo robots parseable. Un archivo ausente (404) o un estado distinto de 200 hace fallar la comprobación.

Por qué importa

robots.txt es la primera URL que descarga cada rastreador (Googlebot, GPTBot, ClaudeBot, PerplexityBot, archive.org) antes de escanear tu sitio. Es tu única oportunidad para:

Dirigir a los rastreadores a tu sitemap con una línea Sitemap:, lo que mejora drásticamente el descubrimiento de páginas no enlazadas desde la home.
Bloquear crawl traps: calendarios infinitos, filtros de búsqueda facetada, páginas de resultados de búsqueda interna.
Permitir o bloquear rastreadores de IA selectivamente (comprobación aparte).

Sin robots.txt, estás diciendo “rastrea lo que encuentres, en el orden que quieras”, y los rastreadores desperdician crawl budget en páginas que no te importan.

Cómo solucionarlo

Crea /public/robots.txt (o donde tu servidor sirva los estáticos) con, como mínimo:

User-agent: *
Allow: /

Sitemap: https://tudominio.com/sitemap.xml

Esa es la línea base de “sitio abierto”. Para bloquear rutas concretas:

User-agent: *
Disallow: /admin/
Disallow: /search?
Disallow: /cart/

Sitemap: https://tudominio.com/sitemap.xml

Patrones habituales:

WordPress: WordPress auto-genera un robots.txt virtual salvo que exista /public/robots.txt. Yoast y Rank Math permiten editarlo desde el admin.
Next.js: crea app/robots.ts exportando un objeto MetadataRoute.Robots.
Astro: coloca un public/robots.txt estático.

Una vez publicado, pruébalo en Google Search Console → Probador de robots.txt.

Preguntas frecuentes

¿Puedo bloquear rastreadores que no quiero?

Sí, con User-agent: GPTBot seguido de Disallow: /. Pero solo funciona con rastreadores que respetan robots.txt, y una lista creciente de scrapers de IA lo ignora. Para bloqueos firmes, usa reglas de user-agent a nivel de servidor.

¿`Disallow:` impide la indexación?

No, Disallow: bloquea el rastreo, no la indexación. Una página con Disallow: aún puede aparecer en los resultados (sin descripción) si otros sitios la enlazan. Para impedir la indexación, usa una meta noindex o la cabecera X-Robots-Tag: noindex.

¿Y si quiero permitir todo?

El archivo válido más simple es:

User-agent: *
Allow: /

Puedes omitir el archivo por completo y Google lo tratará como “todo el rastreo permitido”, pero también pierdes la referencia al sitemap y la señal explícita.