El fichero ROBOTS.TXT
8-4-2013 SEO BásicoEl fichero ROBOTS.TXT es un documento de texto que sirve para establecer unas directrices de rastreo de tu Web para los Bots de los buscadores.
Los Bots (también llamados Spiders, Crawlers o indexadores) son utilizados por los buscadores para acceder a tu Web e indexar todo el contenido (texto, imágenes, enlaces…) de tus páginas.
¿PARA QUÉ SIRVE?
Con el fichero ROBOTS.TXT podemos limitar el acceso a una determinada carpeta de nuestra Web. También podemos impedir el rastreo a un determinado Bot o limitar la frecuencia de rastreo. Algunas de las razones por las que querríamos hacer esto son:
– Evitar contenido duplicado. Lo más importante, ya que si lo hacemos los buscadores nos puntuarán más alto y aumentarán nuestro tráfico.
– Reducir la sobrecarga del servidor por exceso de peticiones que podrían saturarlo.
– Prohibir el acceso a zonas de tu Web que quieres que estén disponibles para los usuarios pero que prefieres que no aparezcan indexadas en los buscadores.
También podemos agregar un mapa de la Web o SITEMAP.XML para indicar a los Bots las direcciones de todas las páginas.
¿PARA QUÉ NO SIRVE?
Como hemos indicado al comienzo del artículo, el ROBOTS.TXT establece directrices de rastreo y los bloqueos pueden no ser respetados por algunos Bots (los llamados «robots malos») cuya única intención es rastrear tu Web en busca de e-mails para hacer Spam.
Si tienes información sensible y no quieres que pueda ser rastreada por los buscadores, deberías de utilizar otros medios de seguridad para protegerla.
Además, con el ROBOTS.TXT tampoco podemos defendernos de Hackers que utilicen ataques de «fuerza bruta».
CÓMO CREAR UN ROBOTS.TXT
Puedes utilizar alguna de las herramientas Online para crear el ROBOTS.TXT, aunque te recomendamos que sigas estas instrucciones de Google para crearlo manualmente. También puedes leer este artículo de Wikipedia acerca de los estándares de exclusión de Bots.
Tiene que estar localizado en el directorio raíz de tu Web, al igual que el FAVICON y el SITEMAP.
UN EJEMPLO DE ROBOTS.TXT
Este es el archivo ROBOTS.TXT de MetricSpot:
Disallow: /new/
Disallow: /tos/
Disallow: /items/
Disallow: /no/
Disallow: /condiciones-de-uso/
Disallow: /blog/cat/
Disallow: /blog/tag/
Disallow: /blog/wp-admin/
Disallow: /blog/wp-includes/
Disallow: /blog/wp-content/plugins/
Disallow: /blog/wp-content/themes/
Disallow: /blog/feed/
Disallow: /api/www.metricspot.com
Disallow: /*.js$
Disallow: /*.css$
Sitemap: https://metricspot.com/sitemap.xml
La línea User-agent: * indica que las siguientes órdenes se aplican a TODOS los Bots.
Las siguientes 5 líneas bloquean carpetas o páginas específicas mediante la orden Disallow: y la URI de la carpeta o página que queremos desautorizar.
Por motivos de seguridad, hemos desautorizado la página de «Condiciones de Uso» (páginas /condiciones-de-uso/ y /tos/) ya que hay información que no deseamos que esté indexada.
Para que no haya problemas de contenido duplicado hemos bloqueado las carpetas /new/ e /items/ utilizadas por nuestra aplicación para crear contenido temporal. También hemos bloqueado las carpetas /blog/cat/ y /blog/tag/ que es donde aparecen las categorías y las etiquetas en nuestro Blog.
Las órdenes Disallow: /*.js$ y Disallow: /*.css$ bloquean el rastreo todos los archivos JavaScript y CSS para no sobrecargar el servidor.
Por último, con la orden Sitemap: https://metricspot.com/sitemap.xml se indica la localización del Mapa de Sitio.
curso SEO español ROBOTS.TXT
13/1/2014 a las 03:38 PM
Hola, me gusto la claridad de tu artículo. Administro varios WP y utilizo la herramienta de ustedes. Considero al robots.txt muy importante pero todavía tengo algunas dudas con respecto a su configuración, debido a los continuos cambios de los buscadores, sobre todo Google. He tratado de realizar un robots.txt que se ajuste a mis necesidades y que sobre todo no sobrecargue los servidores, puesto que WP tiende a devorarse los recursos. Actualmente utilizo en la mayoría de mis sitios algo como el que te copio más abajo… Me podrías dar tu opinión más profesional? Gracias
—————–
Sitemap: http://www.dominio.com/sitemap.xml.gz
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /wp-admin/
Disallow: /wp-
Disallow: /?s=
Disallow: /search
Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
User-agent: Googlebot
Disallow: /trackback/
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.php$
User-agent: Googlebot-Image
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: duggmirror
Disallow: /
User-agent: noxtrumbot
Crawl-delay: 100
User-agent: msnbot
Crawl-delay: 100
User-agent: Slurp
Crawl-delay: 100