El fichero ROBOTS.TXT

Q: ¿Dónde tiene que estar el archivo robots.txt?

En el directorio raíz de tu dominio: https://tudominio.com/robots.txt. Cualquier otra ubicación será ignorada por los bots.

Q: ¿Puedo bloquear bots específicos como GPTBot o ClaudeBot?

Sí. Añade un bloque User-agent: GPTBot o User-agent: ClaudeBot con sus reglas Disallow. Aunque tener en cuenta que algunos bots ignoran las reglas.

El fichero ROBOTS.TXT es un documento de texto en el directorio raíz de tu web que indica a los bots de los buscadores qué partes pueden rastrear y cuáles no. Sirve para evitar contenido duplicado, reducir la carga del servidor y bloquear zonas privadas. No es un mecanismo de seguridad: los bots maliciosos pueden ignorarlo.

Los bots (también llamados spiders, crawlers o indexadores) son utilizados por los buscadores para acceder a tu web e indexar todo el contenido (texto, imágenes, enlaces…) de tus páginas.

¿Para qué sirve robots.txt?

Con el fichero ROBOTS.TXT podemos:

Limitar el acceso a una determinada carpeta de nuestra web.
Impedir el rastreo a un determinado bot.
Limitar la frecuencia de rastreo.

Algunas razones por las que querrías hacer esto:

Evitar contenido duplicado. Lo más importante: si lo evitamos, los buscadores nos puntuarán mejor y aumentaremos nuestro tráfico.
Reducir la sobrecarga del servidor por exceso de peticiones.
Prohibir el acceso a zonas internas de tu web que deben estar disponibles para usuarios pero no aparecer indexadas en buscadores.

También podemos agregar un mapa de la web o SITEMAP.XML para indicar a los bots las direcciones de todas las páginas.

¿Para qué NO sirve robots.txt?

Como hemos dicho, ROBOTS.TXT solo establece directrices y los bloqueos pueden no ser respetados:

Los “robots malos” (spam, scrapers de emails) suelen ignorarlo.
No protege información sensible. Si tienes datos privados, usa otros mecanismos de seguridad (contraseñas, cabeceras HTTP, autenticación).
No defiende contra hackers que utilicen ataques de fuerza bruta.

Cómo crear un robots.txt

Puedes utilizar alguna herramienta online, aunque te recomendamos seguir las instrucciones de Google para crearlo manualmente. También puedes leer el artículo de Wikipedia sobre los estándares de exclusión de bots.

Tiene que estar localizado en el directorio raíz de tu web, igual que el favicon y el sitemap.

Un ejemplo de robots.txt

Este es el archivo ROBOTS.TXT de MetricSpot:

User-agent: *
Disallow: /new/
Disallow: /tos/
Disallow: /items/
Disallow: /no/
Disallow: /condiciones-de-uso/
Disallow: /blog/cat/
Disallow: /blog/tag/
Disallow: /blog/wp-admin/
Disallow: /blog/wp-includes/
Disallow: /blog/wp-content/plugins/
Disallow: /blog/wp-content/themes/
Disallow: /blog/feed/
Disallow: /api/www.metricspot.com
Disallow: /*.js$
Disallow: /*.css$
Sitemap: https://metricspot.com/sitemap.xml

Cómo leer este robots.txt

User-agent: * indica que las siguientes órdenes se aplican a TODOS los bots.
Disallow: bloquea carpetas o páginas específicas.
Hemos desautorizado /condiciones-de-uso/ y /tos/ por motivos de seguridad: contienen información que no queremos indexada.
/new/ e /items/ son carpetas que la app usa para crear contenido temporal: bloquearlas evita problemas de contenido duplicado.
/blog/cat/ y /blog/tag/ son las páginas de categorías y etiquetas del blog (también contenido duplicado).
Disallow: /*.js$ y Disallow: /*.css$ bloquean el rastreo de archivos JavaScript y CSS para no sobrecargar el servidor (aviso: hoy Google recomienda permitir el rastreo de JS y CSS, esta práctica de 2013 quedó obsoleta).
Sitemap: indica la localización del sitemap XML.

Conclusiones clave

robots.txt da directrices, no garantías: los bots maliciosos pueden ignorarlo.
Sirve para evitar contenido duplicado, reducir carga del servidor y bloquear zonas internas.
Debe ir en el directorio raíz, junto al favicon y el sitemap.
Para proteger información sensible usa autenticación, no robots.txt.

Preguntas frecuentes

¿Dónde tiene que estar el archivo robots.txt?

En el directorio raíz de tu dominio: https://tudominio.com/robots.txt. Cualquier otra ubicación será ignorada por los bots.

¿robots.txt evita que mi página aparezca en Google?

No siempre. Si otras webs enlazan a una URL bloqueada, Google puede mostrarla en resultados sin contenido. Para impedir indexación usa la meta etiqueta noindex en la página.

¿Puedo bloquear bots específicos como GPTBot o ClaudeBot?

Sí. Añade un bloque User-agent: GPTBot o User-agent: ClaudeBot con sus reglas Disallow. Aunque tener en cuenta que algunos bots ignoran las reglas.