MetricSpot

El fichero ROBOTS.TXT

Robots.txt icon MetricSpot SEO tools

El fichero ROBOTS.TXT es un documento de texto que sirve para establecer unas directrices de rastreo de tu Web para los Bots de los buscadores.

Los Bots (también llamados Spiders, Crawlers o indexadores) son utilizados por los buscadores para acceder a tu Web e indexar todo el contenido (texto, imágenes, enlaces…) de tus páginas.

 

¿PARA QUÉ SIRVE?

Con el fichero ROBOTS.TXT podemos limitar el acceso a una determinada carpeta de nuestra Web. También podemos impedir el rastreo a un determinado Bot o limitar la frecuencia de rastreo. Algunas de las razones por las que querríamos hacer esto son:

Evitar contenido duplicado. Lo más importante, ya que si lo hacemos los buscadores nos puntuarán más alto y aumentarán nuestro tráfico.

Reducir la sobrecarga del servidor por exceso de peticiones que podrían saturarlo.

Prohibir el acceso a zonas de tu Web que quieres que estén disponibles para los usuarios pero que prefieres que no aparezcan indexadas en los buscadores.

También podemos agregar un mapa de la Web o SITEMAP.XML para indicar a los Bots las direcciones de todas las páginas.

 

¿PARA QUÉ NO SIRVE?

Como hemos indicado al comienzo del artículo, el ROBOTS.TXT establece directrices de rastreo y los bloqueos pueden no ser respetados por algunos Bots (los llamados «robots malos») cuya única intención es rastrear tu Web en busca de e-mails para hacer Spam.

Si tienes información sensible y no quieres que pueda ser rastreada por los buscadores, deberías de utilizar otros medios de seguridad para protegerla.

Además, con el ROBOTS.TXT tampoco podemos defendernos de Hackers que utilicen ataques de «fuerza bruta».

 

CÓMO CREAR UN ROBOTS.TXT

Puedes utilizar alguna de las herramientas Online para crear el ROBOTS.TXT, aunque te recomendamos que sigas estas instrucciones de Google para crearlo manualmente. También puedes leer este artículo de Wikipedia acerca de los estándares de exclusión de Bots.

Tiene que estar localizado en el directorio raíz de tu Web, al igual que el FAVICON y el SITEMAP.

 

UN EJEMPLO DE ROBOTS.TXT

Este es el archivo ROBOTS.TXT de MetricSpot:

User-agent: *
Disallow: /new/
Disallow: /tos/
Disallow: /items/
Disallow: /no/
Disallow: /condiciones-de-uso/
Disallow: /blog/cat/
Disallow: /blog/tag/
Disallow: /blog/wp-admin/
Disallow: /blog/wp-includes/
Disallow: /blog/wp-content/plugins/
Disallow: /blog/wp-content/themes/
Disallow: /blog/feed/
Disallow: /api/www.metricspot.com
Disallow: /*.js$
Disallow: /*.css$
Sitemap: https://metricspot.com/sitemap.xml

 

La línea User-agent: * indica que las siguientes órdenes se aplican a TODOS los Bots.

Las siguientes 5 líneas bloquean carpetas o páginas específicas mediante la orden Disallow: y la URI de la carpeta o página que queremos desautorizar.

Por motivos de seguridad, hemos desautorizado la página de «Condiciones de Uso» (páginas /condiciones-de-uso/ y /tos/) ya que hay información que no deseamos que esté indexada.

Para que no haya problemas de contenido duplicado hemos bloqueado las carpetas /new/ e /items/ utilizadas por nuestra aplicación para crear contenido temporal. También hemos bloqueado las carpetas /blog/cat/ y /blog/tag/ que es donde aparecen las categorías y las etiquetas en nuestro Blog.

Las órdenes Disallow: /*.js$ y Disallow: /*.css$ bloquean el rastreo todos los archivos JavaScript y CSS para no sobrecargar el servidor.

Por último, con la orden Sitemap: https://metricspot.com/sitemap.xml se indica la localización del Mapa de Sitio.

Salir de la versión móvil