File robots.txt - Docs di MetricSpot

Q: Posso bloccare crawler che non voglio?

Sì, con User-agent: GPTBot seguito da Disallow: /. Ma funziona solo per i crawler che rispettano robots.txt — e una lista crescente di scraper IA lo ignora. Per blocchi duri, usa regole di user-agent a livello server.

Q: `Disallow:` impedisce l'indicizzazione?

No, Disallow: blocca la scansione, non l'indicizzazione. Una pagina con Disallow: può comunque comparire nei risultati di ricerca (senza descrizione) se altri siti la linkano. Per impedire l'indicizzazione, usa invece un meta tag noindex o l'header X-Robots-Tag: noindex.

Q: E se voglio permettere tutto?

Il file valido più semplice è: ` User-agent: * Allow: / ` Puoi omettere del tutto il file e Google lo tratterà come "tutta la scansione consentita", ma perdi anche il riferimento alla sitemap e il segnale esplicito.

Cosa controlla questo check

Fa una GET a https://tuodominio.com/robots.txt e conferma che restituisca 200 con un file robots leggibile. Un file mancante (404) o uno stato non-200 fa fallire il check.

Perché è importante

robots.txt è il primo URL che ogni crawler — Googlebot, GPTBot, ClaudeBot, PerplexityBot, archive.org — scarica prima di scansionare il sito. È la tua unica occasione per:

Indirizzare i crawler verso la tua sitemap con una riga Sitemap:, migliorando drasticamente la scoperta delle pagine non linkate dalla home.
Bloccare le trappole di crawl: calendari infiniti, filtri di ricerca facets, pagine di risultati della ricerca interna.
Permettere o vietare selettivamente i crawler IA (check separato).

Senza un robots.txt stai dicendo “scansiona quello che trovi, in qualsiasi ordine” e i crawler sprecano budget su pagine che non ti interessano.

Come risolvere

Crea /public/robots.txt (o dove il tuo server serve i file statici) con almeno questo:

User-agent: *
Allow: /

Sitemap: https://tuodominio.com/sitemap.xml

È la base “sito aperto”. Per bloccare percorsi specifici:

User-agent: *
Disallow: /admin/
Disallow: /search?
Disallow: /cart/

Sitemap: https://tuodominio.com/sitemap.xml

Pattern comuni:

WordPress: genera un robots.txt virtuale a meno che esista /public/robots.txt. Yoast / Rank Math permettono di modificarlo nell’admin.
Next.js: crea app/robots.ts che esporta un oggetto MetadataRoute.Robots.
Astro: metti un file statico in public/robots.txt.

Dopo la pubblicazione, testa con Google Search Console → Tester robots.txt.

Domande frequenti

Posso bloccare crawler che non voglio?

Sì, con User-agent: GPTBot seguito da Disallow: /. Ma funziona solo per i crawler che rispettano robots.txt — e una lista crescente di scraper IA lo ignora. Per blocchi duri, usa regole di user-agent a livello server.

`Disallow:` impedisce l’indicizzazione?

No, Disallow: blocca la scansione, non l’indicizzazione. Una pagina con Disallow: può comunque comparire nei risultati di ricerca (senza descrizione) se altri siti la linkano. Per impedire l’indicizzazione, usa invece un meta tag noindex o l’header X-Robots-Tag: noindex.

E se voglio permettere tutto?

Il file valido più semplice è:

User-agent: *
Allow: /

Puoi omettere del tutto il file e Google lo tratterà come “tutta la scansione consentita”, ma perdi anche il riferimento alla sitemap e il segnale esplicito.