Fitxer robots.txt - Docs de MetricSpot

Què comprova aquesta auditoria

Fa un GET a https://elteudomini.com/robots.txt i confirma que retorna 200 amb un fitxer robots analitzable. Un fitxer absent (404) o un estat no-200 fa fallar la comprovació.

Per què importa

robots.txt és la primera URL que cada rastrejador (Googlebot, GPTBot, ClaudeBot, PerplexityBot, archive.org) descarrega abans d’escanejar el teu lloc. És la teva única oportunitat per:

Dirigir els rastrejadors al teu sitemap amb una línia Sitemap:, millorant dràsticament el descobriment de pàgines no enllaçades des de la pàgina d’inici.
Bloquejar paranys de rastreig: calendaris infinits, filtres de cerca facetada, pàgines de resultats de cerca interna.
Permetre o denegar selectivament els rastrejadors d’IA (comprovació separada).

Sense un robots.txt, estàs dient “rastreja el que trobis, en l’ordre que vulguis”, i els rastrejadors malgasten pressupost en pàgines que no t’importen.

Com solucionar-ho

Crea /public/robots.txt (o on sigui que el teu servidor serveixi fitxers estàtics) amb com a mínim:

User-agent: *
Allow: /

Sitemap: https://elteudomini.com/sitemap.xml

Aquesta és la línia base de “lloc obert”. Per bloquejar rutes específiques:

User-agent: *
Disallow: /admin/
Disallow: /search?
Disallow: /cart/

Sitemap: https://elteudomini.com/sitemap.xml

Patrons habituals:

WordPress: WordPress genera un robots.txt virtual automàticament a menys que existeixi /public/robots.txt. Yoast / Rank Math permeten editar-lo des de l’admin.
Next.js: crea app/robots.ts exportant un objecte MetadataRoute.Robots.
Astro: posa un fitxer estàtic public/robots.txt.

Després de publicar-ho, prova-ho amb Google Search Console → tester de robots.txt.

Preguntes freqüents

Puc bloquejar rastrejadors que no vull?

Sí, amb User-agent: GPTBot seguit de Disallow: /. Però això només funciona per a rastrejadors que respecten robots.txt, i una llista creixent de scrapers d’IA l’ignora. Per a bloqueigs durs, fes servir regles de user-agent a nivell de servidor.

`Disallow:` impedeix la indexació?

No, Disallow: bloqueja el rastreig, no la indexació. Una pàgina amb Disallow: encara pot aparèixer als resultats de cerca (sense descripció) si altres llocs hi enllacen. Per impedir la indexació, fes servir una meta etiqueta noindex o una capçalera X-Robots-Tag: noindex.

I si vull permetre-ho tot?

El fitxer vàlid més simple és:

User-agent: *
Allow: /

Pots ometre el fitxer del tot i Google ho tractarà com “tot el rastreig permès”, però també perds la referència al sitemap i el senyal explícit.