El fichero ROBOTS.TXT

iniciar sesión

¿Quieres conseguir más ventas para tu negocio?

Aprende a crear y automatizar un proceso de generación de leads para tener un flujo constante de clientes para tu empresa, sin malgastar dinero en publicidad de pago.

El fichero ROBOTS.TXT

8-4-2013     SEO Básico

El fichero ROBOTS.TXT es un documento de texto que sirve para establecer unas directrices de rastreo de tu Web para los Bots de los buscadores.

Los Bots (también llamados Spiders, Crawlers o indexadores) son utilizados por los buscadores para acceder a tu Web e indexar todo el contenido (texto, imágenes, enlaces…) de tus páginas.

 

¿PARA QUÉ SIRVE?

Con el fichero ROBOTS.TXT podemos limitar el acceso a una determinada carpeta de nuestra Web. También podemos impedir el rastreo a un determinado Bot o limitar la frecuencia de rastreo. Algunas de las razones por las que querríamos hacer esto son:

Evitar contenido duplicado. Lo más importante, ya que si lo hacemos los buscadores nos puntuarán más alto y aumentarán nuestro tráfico.

Reducir la sobrecarga del servidor por exceso de peticiones que podrían saturarlo.

Prohibir el acceso a zonas de tu Web que quieres que estén disponibles para los usuarios pero que prefieres que no aparezcan indexadas en los buscadores.

También podemos agregar un mapa de la Web o SITEMAP.XML para indicar a los Bots las direcciones de todas las páginas.

 

¿PARA QUÉ NO SIRVE?

Como hemos indicado al comienzo del artículo, el ROBOTS.TXT establece directrices de rastreo y los bloqueos pueden no ser respetados por algunos Bots (los llamados «robots malos») cuya única intención es rastrear tu Web en busca de e-mails para hacer Spam.

Si tienes información sensible y no quieres que pueda ser rastreada por los buscadores, deberías de utilizar otros medios de seguridad para protegerla.

Además, con el ROBOTS.TXT tampoco podemos defendernos de Hackers que utilicen ataques de «fuerza bruta».

 

CÓMO CREAR UN ROBOTS.TXT

Puedes utilizar alguna de las herramientas Online para crear el ROBOTS.TXT, aunque te recomendamos que sigas estas instrucciones de Google para crearlo manualmente. También puedes leer este artículo de Wikipedia acerca de los estándares de exclusión de Bots.

Tiene que estar localizado en el directorio raíz de tu Web, al igual que el FAVICON y el SITEMAP.

 

UN EJEMPLO DE ROBOTS.TXT

Este es el archivo ROBOTS.TXT de MetricSpot:

User-agent: *
Disallow: /new/
Disallow: /tos/
Disallow: /items/
Disallow: /no/
Disallow: /condiciones-de-uso/
Disallow: /blog/cat/
Disallow: /blog/tag/
Disallow: /blog/wp-admin/
Disallow: /blog/wp-includes/
Disallow: /blog/wp-content/plugins/
Disallow: /blog/wp-content/themes/
Disallow: /blog/feed/
Disallow: /api/www.metricspot.com
Disallow: /*.js$
Disallow: /*.css$
Sitemap: https://metricspot.com/sitemap.xml

 

La línea User-agent: * indica que las siguientes órdenes se aplican a TODOS los Bots.

Las siguientes 5 líneas bloquean carpetas o páginas específicas mediante la orden Disallow: y la URI de la carpeta o página que queremos desautorizar.

Por motivos de seguridad, hemos desautorizado la página de «Condiciones de Uso» (páginas /condiciones-de-uso/ y /tos/) ya que hay información que no deseamos que esté indexada.

Para que no haya problemas de contenido duplicado hemos bloqueado las carpetas /new/ e /items/ utilizadas por nuestra aplicación para crear contenido temporal. También hemos bloqueado las carpetas /blog/cat/ y /blog/tag/ que es donde aparecen las categorías y las etiquetas en nuestro Blog.

Las órdenes Disallow: /*.js$ y Disallow: /*.css$ bloquean el rastreo todos los archivos JavaScript y CSS para no sobrecargar el servidor.

Por último, con la orden Sitemap: https://metricspot.com/sitemap.xml se indica la localización del Mapa de Sitio.



Plantilla para una Auditoría SEO

Plantilla para una Auditoría SEO

Esta lista con más de 120 comprobaciones y las plantillas adjuntas son todo lo que necesitas para realizar una auditoría SEO completa.

Descarga Pro
más información




Deja tu comentario:

Comentarios:

  1. Joaquin ha escrito:

    Hola, me gusto la claridad de tu artículo. Administro varios WP y utilizo la herramienta de ustedes. Considero al robots.txt muy importante pero todavía tengo algunas dudas con respecto a su configuración, debido a los continuos cambios de los buscadores, sobre todo Google. He tratado de realizar un robots.txt que se ajuste a mis necesidades y que sobre todo no sobrecargue los servidores, puesto que WP tiende a devorarse los recursos. Actualmente utilizo en la mayoría de mis sitios algo como el que te copio más abajo… Me podrías dar tu opinión más profesional? Gracias

    —————–

    Sitemap: http://www.dominio.com/sitemap.xml.gz

    User-Agent: *
    Allow: /wp-content/uploads/
    Disallow: /wp-content/
    Disallow: /wp-includes/
    Disallow: /wp-admin/
    Disallow: /wp-

    Disallow: /?s=
    Disallow: /search

    Allow: /feed/$
    Disallow: /feed
    Disallow: /comments/feed
    Disallow: /*/feed/$
    Disallow: /*/feed/rss/$
    Disallow: /*/trackback/$
    Disallow: /*/*/feed/$
    Disallow: /*/*/feed/rss/$
    Disallow: /*/*/trackback/$
    Disallow: /*/*/*/feed/$
    Disallow: /*/*/*/feed/rss/$
    Disallow: /*/*/*/trackback/$

    User-agent: Googlebot
    Disallow: /trackback/
    Disallow: /*.js$
    Disallow: /*.inc$
    Disallow: /*.css$
    Disallow: /*.php$

    User-agent: Googlebot-Image
    Disallow: /

    User-agent: ia_archiver
    Disallow: /

    User-agent: duggmirror
    Disallow: /

    User-agent: noxtrumbot
    Crawl-delay: 100

    User-agent: msnbot
    Crawl-delay: 100

    User-agent: Slurp
    Crawl-delay: 100


¡Deja tu comentario!

(Anti-Spam)