technical
File robots.txt
MetricSpot verifica la presenza di /robots.txt alla radice del tuo dominio. È il primo file che ogni crawler scarica — la sua assenza non è fatale, ma è un segnale perso.
Cosa controlla questo check
Fa una GET a https://tuodominio.com/robots.txt e conferma che restituisca 200 con un file robots leggibile. Un file mancante (404) o uno stato non-200 fa fallire il check.
Perché è importante
robots.txt è il primo URL che ogni crawler — Googlebot, GPTBot, ClaudeBot, PerplexityBot, archive.org — scarica prima di scansionare il sito. È la tua unica occasione per:
- Indirizzare i crawler verso la tua sitemap con una riga
Sitemap:, migliorando drasticamente la scoperta delle pagine non linkate dalla home. - Bloccare le trappole di crawl: calendari infiniti, filtri di ricerca facets, pagine di risultati della ricerca interna.
- Permettere o vietare selettivamente i crawler IA (check separato).
Senza un robots.txt stai dicendo “scansiona quello che trovi, in qualsiasi ordine” e i crawler sprecano budget su pagine che non ti interessano.
Come risolvere
Crea /public/robots.txt (o dove il tuo server serve i file statici) con almeno questo:
User-agent: *
Allow: /
Sitemap: https://tuodominio.com/sitemap.xml
È la base “sito aperto”. Per bloccare percorsi specifici:
User-agent: *
Disallow: /admin/
Disallow: /search?
Disallow: /cart/
Sitemap: https://tuodominio.com/sitemap.xml
Pattern comuni:
- WordPress: genera un robots.txt virtuale a meno che esista
/public/robots.txt. Yoast / Rank Math permettono di modificarlo nell’admin. - Next.js: crea
app/robots.tsche esporta un oggettoMetadataRoute.Robots. - Astro: metti un file statico in
public/robots.txt.
Dopo la pubblicazione, testa con Google Search Console → Tester robots.txt.
Domande frequenti
Posso bloccare crawler che non voglio?
Sì, con User-agent: GPTBot seguito da Disallow: /. Ma funziona solo per i crawler che rispettano robots.txt — e una lista crescente di scraper IA lo ignora. Per blocchi duri, usa regole di user-agent a livello server.
Disallow: impedisce l’indicizzazione?
No, Disallow: blocca la scansione, non l’indicizzazione. Una pagina con Disallow: può comunque comparire nei risultati di ricerca (senza descrizione) se altri siti la linkano. Per impedire l’indicizzazione, usa invece un meta tag noindex o l’header X-Robots-Tag: noindex.
E se voglio permettere tutto?
Il file valido più semplice è:
User-agent: *
Allow: /
Puoi omettere del tutto il file e Google lo tratterà come “tutta la scansione consentita”, ma perdi anche il riferimento alla sitemap e il segnale esplicito.
Fonti
Ultimo aggiornamento 2026-05-11