technical
Fitxer robots.txt
MetricSpot comprova /robots.txt a l'arrel del teu domini. És el primer fitxer que cada rastrejador descarrega, la seva absència no és fatal, però és un senyal que es perd.
Què comprova aquesta auditoria
Fa un GET a https://elteudomini.com/robots.txt i confirma que retorna 200 amb un fitxer robots analitzable. Un fitxer absent (404) o un estat no-200 fa fallar la comprovació.
Per què importa
robots.txt és la primera URL que cada rastrejador (Googlebot, GPTBot, ClaudeBot, PerplexityBot, archive.org) descarrega abans d’escanejar el teu lloc. És la teva única oportunitat per:
- Dirigir els rastrejadors al teu sitemap amb una línia
Sitemap:, millorant dràsticament el descobriment de pàgines no enllaçades des de la pàgina d’inici. - Bloquejar paranys de rastreig: calendaris infinits, filtres de cerca facetada, pàgines de resultats de cerca interna.
- Permetre o denegar selectivament els rastrejadors d’IA (comprovació separada).
Sense un robots.txt, estàs dient “rastreja el que trobis, en l’ordre que vulguis”, i els rastrejadors malgasten pressupost en pàgines que no t’importen.
Com solucionar-ho
Crea /public/robots.txt (o on sigui que el teu servidor serveixi fitxers estàtics) amb com a mínim:
User-agent: *
Allow: /
Sitemap: https://elteudomini.com/sitemap.xml
Aquesta és la línia base de “lloc obert”. Per bloquejar rutes específiques:
User-agent: *
Disallow: /admin/
Disallow: /search?
Disallow: /cart/
Sitemap: https://elteudomini.com/sitemap.xml
Patrons habituals:
- WordPress: WordPress genera un robots.txt virtual automàticament a menys que existeixi
/public/robots.txt. Yoast / Rank Math permeten editar-lo des de l’admin. - Next.js: crea
app/robots.tsexportant un objecteMetadataRoute.Robots. - Astro: posa un fitxer estàtic
public/robots.txt.
Després de publicar-ho, prova-ho amb Google Search Console → tester de robots.txt.
Preguntes freqüents
Puc bloquejar rastrejadors que no vull?
Sí, amb User-agent: GPTBot seguit de Disallow: /. Però això només funciona per a rastrejadors que respecten robots.txt, i una llista creixent de scrapers d’IA l’ignora. Per a bloqueigs durs, fes servir regles de user-agent a nivell de servidor.
Disallow: impedeix la indexació?
No, Disallow: bloqueja el rastreig, no la indexació. Una pàgina amb Disallow: encara pot aparèixer als resultats de cerca (sense descripció) si altres llocs hi enllacen. Per impedir la indexació, fes servir una meta etiqueta noindex o una capçalera X-Robots-Tag: noindex.
I si vull permetre-ho tot?
El fitxer vàlid més simple és:
User-agent: *
Allow: /
Pots ometre el fitxer del tot i Google ho tractarà com “tot el rastreig permès”, però també perds la referència al sitemap i el senyal explícit.
Fonts
Última actualització 2026-05-11