Fichier robots.txt - Docs MetricSpot

Q: Puis-je bloquer les crawlers que je ne veux pas ?

Oui, avec User-agent: GPTBot suivi de Disallow: /. Mais cela ne fonctionne que pour les crawlers qui respectent robots.txt — et un nombre croissant de scrapers IA l'ignorent. Pour un blocage dur, utilisez des règles user-agent au niveau serveur.

Q: `Disallow:` empêche-t-il l'indexation ?

Non, Disallow: bloque le crawl, pas l'indexation. Une page en Disallow: peut quand même apparaître dans les résultats (sans description) si d'autres sites la lient. Pour empêcher l'indexation, utilisez plutôt une balise meta noindex ou un en-tête X-Robots-Tag: noindex.

Q: Et si je veux tout autoriser ?

Le fichier valide le plus simple est : ` User-agent: * Allow: / ` Vous pouvez omettre le fichier entièrement et Google considérera que « tout crawl est autorisé », mais vous perdez aussi la référence au sitemap et le signal explicite.

Ce que vérifie ce contrôle

Effectue un GET sur https://votredomaine.com/robots.txt et confirme qu’il renvoie 200 avec un fichier robots analysable. Un fichier manquant (404) ou un statut non-200 fait échouer le contrôle.

Pourquoi c’est important

robots.txt est la première URL que chaque crawler — Googlebot, GPTBot, ClaudeBot, PerplexityBot, archive.org — récupère avant de scanner votre site. C’est votre unique chance de :

Diriger les crawlers vers votre sitemap avec une ligne Sitemap:, ce qui améliore fortement la découverte des pages non liées depuis la page d’accueil.
Bloquer les pièges à crawl : calendriers infinis, filtres de recherche à facettes, pages de résultats de recherche interne.
Autoriser ou interdire sélectivement les robots IA (contrôle séparé).

Sans robots.txt, vous dites « crawle ce que tu trouves, dans l’ordre que tu veux » — et les crawlers gaspillent leur budget sur des pages qui ne vous intéressent pas.

Comment le corriger

Créez /public/robots.txt (ou là où votre serveur sert les fichiers statiques) avec au minimum :

User-agent: *
Allow: /

Sitemap: https://votredomaine.com/sitemap.xml

C’est la base « site ouvert ». Pour bloquer certains chemins :

User-agent: *
Disallow: /admin/
Disallow: /search?
Disallow: /cart/

Sitemap: https://votredomaine.com/sitemap.xml

Patterns courants :

WordPress : WordPress auto-génère un robots.txt virtuel sauf si /public/robots.txt existe. Yoast / Rank Math vous laissent l’éditer dans l’admin.
Next.js : créez app/robots.ts qui exporte un objet MetadataRoute.Robots.
Astro : déposez un fichier statique public/robots.txt.

Après publication, testez avec Google Search Console → testeur robots.txt.

Questions fréquentes

Puis-je bloquer les crawlers que je ne veux pas ?

Oui, avec User-agent: GPTBot suivi de Disallow: /. Mais cela ne fonctionne que pour les crawlers qui respectent robots.txt — et un nombre croissant de scrapers IA l’ignorent. Pour un blocage dur, utilisez des règles user-agent au niveau serveur.

`Disallow:` empêche-t-il l’indexation ?

Non, Disallow: bloque le crawl, pas l’indexation. Une page en Disallow: peut quand même apparaître dans les résultats (sans description) si d’autres sites la lient. Pour empêcher l’indexation, utilisez plutôt une balise meta noindex ou un en-tête X-Robots-Tag: noindex.

Et si je veux tout autoriser ?

Le fichier valide le plus simple est :

User-agent: *
Allow: /

Vous pouvez omettre le fichier entièrement et Google considérera que « tout crawl est autorisé », mais vous perdez aussi la référence au sitemap et le signal explicite.