technical
Archivo robots.txt
MetricSpot busca /robots.txt en la raíz de tu dominio. Es el primer archivo que descarga cada rastreador: su ausencia no es letal, pero es una señal que pierdes.
Qué comprueba esta auditoría
Hace un GET a https://tudominio.com/robots.txt y confirma que devuelve 200 con un archivo robots parseable. Un archivo ausente (404) o un estado distinto de 200 hace fallar la comprobación.
Por qué importa
robots.txt es la primera URL que descarga cada rastreador (Googlebot, GPTBot, ClaudeBot, PerplexityBot, archive.org) antes de escanear tu sitio. Es tu única oportunidad para:
- Dirigir a los rastreadores a tu sitemap con una línea
Sitemap:, lo que mejora drásticamente el descubrimiento de páginas no enlazadas desde la home. - Bloquear crawl traps: calendarios infinitos, filtros de búsqueda facetada, páginas de resultados de búsqueda interna.
- Permitir o bloquear rastreadores de IA selectivamente (comprobación aparte).
Sin robots.txt, estás diciendo “rastrea lo que encuentres, en el orden que quieras”, y los rastreadores desperdician crawl budget en páginas que no te importan.
Cómo solucionarlo
Crea /public/robots.txt (o donde tu servidor sirva los estáticos) con, como mínimo:
User-agent: *
Allow: /
Sitemap: https://tudominio.com/sitemap.xml
Esa es la línea base de “sitio abierto”. Para bloquear rutas concretas:
User-agent: *
Disallow: /admin/
Disallow: /search?
Disallow: /cart/
Sitemap: https://tudominio.com/sitemap.xml
Patrones habituales:
- WordPress: WordPress auto-genera un robots.txt virtual salvo que exista
/public/robots.txt. Yoast y Rank Math permiten editarlo desde el admin. - Next.js: crea
app/robots.tsexportando un objetoMetadataRoute.Robots. - Astro: coloca un
public/robots.txtestático.
Una vez publicado, pruébalo en Google Search Console → Probador de robots.txt.
Preguntas frecuentes
¿Puedo bloquear rastreadores que no quiero?
Sí, con User-agent: GPTBot seguido de Disallow: /. Pero solo funciona con rastreadores que respetan robots.txt, y una lista creciente de scrapers de IA lo ignora. Para bloqueos firmes, usa reglas de user-agent a nivel de servidor.
¿Disallow: impide la indexación?
No, Disallow: bloquea el rastreo, no la indexación. Una página con Disallow: aún puede aparecer en los resultados (sin descripción) si otros sitios la enlazan. Para impedir la indexación, usa una meta noindex o la cabecera X-Robots-Tag: noindex.
¿Y si quiero permitir todo?
El archivo válido más simple es:
User-agent: *
Allow: /
Puedes omitir el archivo por completo y Google lo tratará como “todo el rastreo permitido”, pero también pierdes la referencia al sitemap y la señal explícita.
Fuentes
Última actualización 2026-05-11