technical
Fichier robots.txt
MetricSpot recherche /robots.txt à la racine de votre domaine. C'est le premier fichier que chaque crawler récupère — son absence n'est pas fatale, mais c'est un signal manqué.
Ce que vérifie ce contrôle
Effectue un GET sur https://votredomaine.com/robots.txt et confirme qu’il renvoie 200 avec un fichier robots analysable. Un fichier manquant (404) ou un statut non-200 fait échouer le contrôle.
Pourquoi c’est important
robots.txt est la première URL que chaque crawler — Googlebot, GPTBot, ClaudeBot, PerplexityBot, archive.org — récupère avant de scanner votre site. C’est votre unique chance de :
- Diriger les crawlers vers votre sitemap avec une ligne
Sitemap:, ce qui améliore fortement la découverte des pages non liées depuis la page d’accueil. - Bloquer les pièges à crawl : calendriers infinis, filtres de recherche à facettes, pages de résultats de recherche interne.
- Autoriser ou interdire sélectivement les robots IA (contrôle séparé).
Sans robots.txt, vous dites « crawle ce que tu trouves, dans l’ordre que tu veux » — et les crawlers gaspillent leur budget sur des pages qui ne vous intéressent pas.
Comment le corriger
Créez /public/robots.txt (ou là où votre serveur sert les fichiers statiques) avec au minimum :
User-agent: *
Allow: /
Sitemap: https://votredomaine.com/sitemap.xml
C’est la base « site ouvert ». Pour bloquer certains chemins :
User-agent: *
Disallow: /admin/
Disallow: /search?
Disallow: /cart/
Sitemap: https://votredomaine.com/sitemap.xml
Patterns courants :
- WordPress : WordPress auto-génère un robots.txt virtuel sauf si
/public/robots.txtexiste. Yoast / Rank Math vous laissent l’éditer dans l’admin. - Next.js : créez
app/robots.tsqui exporte un objetMetadataRoute.Robots. - Astro : déposez un fichier statique
public/robots.txt.
Après publication, testez avec Google Search Console → testeur robots.txt.
Questions fréquentes
Puis-je bloquer les crawlers que je ne veux pas ?
Oui, avec User-agent: GPTBot suivi de Disallow: /. Mais cela ne fonctionne que pour les crawlers qui respectent robots.txt — et un nombre croissant de scrapers IA l’ignorent. Pour un blocage dur, utilisez des règles user-agent au niveau serveur.
Disallow: empêche-t-il l’indexation ?
Non, Disallow: bloque le crawl, pas l’indexation. Une page en Disallow: peut quand même apparaître dans les résultats (sans description) si d’autres sites la lient. Pour empêcher l’indexation, utilisez plutôt une balise meta noindex ou un en-tête X-Robots-Tag: noindex.
Et si je veux tout autoriser ?
Le fichier valide le plus simple est :
User-agent: *
Allow: /
Vous pouvez omettre le fichier entièrement et Google considérera que « tout crawl est autorisé », mais vous perdez aussi la référence au sitemap et le signal explicite.
Sources
Dernière mise à jour 2026-05-11