Permetti i crawler AI in robots.txt

Q: Bloccare GPTBot rimuove il mio contenuto da ChatGPT?

Impedisce ai futuri crawl di indicizzare il tuo sito, ma il contenuto già nei dati di training ci resta. Non c'è rimozione retroattiva — OpenAI non la offre. Bloccare ora significa che le versioni future del modello non vedranno il tuo nuovo contenuto.

Cosa controlla questo check

Recupera /robots.txt e analizza ogni blocco User-agent per i principali crawler di training AI e motori di risposta:

GPTBot (OpenAI — training e browsing ChatGPT)
ChatGPT-User (OpenAI — quando ChatGPT naviga per conto di un utente)
ClaudeBot (Anthropic — training Claude)
Claude-Web / anthropic-ai (vecchi nomi dei crawler Anthropic)
PerplexityBot (motore di risposta Perplexity)
Google-Extended (opt-in per training Gemini di Google — separato da Googlebot)
CCBot (Common Crawl, alimenta molti dataset AI)
cohere-ai (Cohere)
Bytespider (ByteDance / TikTok AI)
Meta-ExternalAgent (training Meta AI)
applebot-extended (opt-in per training Apple Intelligence — separato da Applebot)

Il check fallisce quando uno o più di questi sono esplicitamente bloccati (Disallow: /) e il profilo di audit è “AI discovery: allow”.

Perché è importante

Motori di risposta e chatbot stanno diventando una fonte di traffico significativa — Perplexity, ChatGPT, Claude e Google AI Overviews mostrano tutti citazioni a pagine sorgente, e i click da quelle citazioni ormai rivaleggiano con alcuni referral da piattaforme social.

Il trade-off è reale e non univoco:

Permettere i crawler AI significa che il tuo contenuto viene citato nelle risposte e accreditato con un link. La scoperta migliora; il riconoscimento del brand migliora; qualche click arriva.
Bloccare i crawler AI impedisce che il tuo contenuto venga usato come dato di training (per quelli che rispettano robots.txt — non tutti lo fanno). Preservi la “scarsità” del tuo contenuto, ma rinunci anche a essere citato in risposte che le persone vedrebbero comunque.

I siti che monetizzano via pubblicità o hanno contenuti unici e difficili da sostituire (editori di news, ricerca a pagamento) spesso bloccano. I siti che monetizzano via vendita prodotti o lead gen di solito permettono — essere citati come la risposta autorevole è marketing gratuito di consapevolezza del brand.

Non c’è una risposta universale giusta. Questo check si attiva quando la tua configurazione non corrisponde al profilo di audit che hai selezionato. La soluzione è permetterli (se vuoi traffico da motori di risposta) o riconoscere il blocco deliberato.

Come risolvere

Per permettere tutti i principali crawler AI, metti questo in cima a robots.txt:

# Allow AI crawlers explicitly
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: cohere-ai
Allow: /

User-agent: applebot-extended
Allow: /

User-agent: Meta-ExternalAgent
Allow: /

# Sitemap last
Sitemap: https://yourdomain.com/sitemap.xml

Non sei strettamente obbligato a elencarli — se nessuna regola corrisponde a uno user-agent, il crawler è permesso di default. Ma elencarli esplicitamente è un segnale pubblico che li accogli, e rende la tua intenzione inequivocabile quando arriva un nuovo crawler e devi decidere.

Per bloccarli tutti (opt-out):

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

Allow selettivo. Alcuni siti bloccano i crawler di training ma permettono gli agent di fetch live:

# Block training-data scrapers
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

# Allow on-demand fetches (citations land back as links)
User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Claude-Web
Allow: /

Blocchi a livello server. robots.txt è una convenzione di cortesia — solo i crawler che la rispettano la obbediscono. Per un blocco rigido, aggiungi un matching user-agent in nginx:

if ($http_user_agent ~* (GPTBot|ClaudeBot|CCBot|anthropic-ai)) {
  return 403;
}

Abbina ad agents.txt (una convenzione più recente che MetricSpot controlla — vedi il doc agents.txt) per una policy strutturata per-bot, leggibile dalle macchine al di là dei wildcard di robots.txt.

Verifica tu stesso — curl https://yourdomain.com/robots.txt e conferma che blocchi/permessi corrispondano alla tua intenzione. Poi controlla il risultato Permettere i crawler AI nel prossimo audit.

Domande frequenti

Bloccare GPTBot rimuove il mio contenuto da ChatGPT?

Impedisce ai futuri crawl di indicizzare il tuo sito, ma il contenuto già nei dati di training ci resta. Non c’è rimozione retroattiva — OpenAI non la offre. Bloccare ora significa che le versioni future del modello non vedranno il tuo nuovo contenuto.

E i tool AI che ignorano robots.txt?

Una lista crescente di scraper ignora del tutto robots.txt o falsifica gli user-agent. Per quelli, robots.txt è inutile e ti serve un filtro a livello server (regole user-agent in nginx, bot management di Cloudflare, blocchi IP). L’approccio robots.txt gestisce l’80% ben educato.

Devo permettere Google-Extended in particolare?

Google-Extended è il crawler di dati di training di Google per Gemini, separato da Googlebot (che continua a indicizzarti per la ricerca normale). Bloccare Google-Extended non influisce sui tuoi ranking di ricerca; permetterlo lascia che il tuo contenuto compaia nelle risposte di Gemini. La maggior parte dei siti con intento di scoperta AI lo permette.