technical

robots.txt-Datei

MetricSpot prüft /robots.txt im Root deiner Domain. Es ist die erste Datei, die jeder Crawler abruft — fehlt sie, ist das nicht fatal, aber ein verschenktes Signal.

Was diese Prüfung macht

Macht ein GET auf https://deinedomain.de/robots.txt und bestätigt, dass die Antwort 200 mit einer parsbaren Robots-Datei ist. Eine fehlende Datei (404) oder ein Nicht-200-Status lässt die Prüfung scheitern.

Warum es wichtig ist

robots.txt ist die erste URL, die jeder Crawler — Googlebot, GPTBot, ClaudeBot, PerplexityBot, archive.org — abruft, bevor er deine Site scannt. Es ist deine einzige Chance, um:

  • Crawler auf deine Sitemap zu lotsen mit einer Sitemap:-Zeile — verbessert die Discovery für Seiten, die nicht von der Startseite verlinkt sind, dramatisch.
  • Crawl-Fallen zu blockieren: unendliche Kalender, Facetten-Filter, interne Suchergebnis-Seiten.
  • KI-Crawler gezielt zu erlauben oder zu sperren (separate Prüfung).

Ohne robots.txt sagst du „crawlt alles, was ihr findet, in beliebiger Reihenfolge” — und Crawler verschwenden Budget auf Seiten, die dir egal sind.

Wie du es behebst

Lege /public/robots.txt an (oder wo dein Server statische Dateien ausliefert) — mit mindestens:

User-agent: *
Allow: /

Sitemap: https://deinedomain.de/sitemap.xml

Das ist das „offene Site”-Baseline. Um bestimmte Pfade zu blockieren:

User-agent: *
Disallow: /admin/
Disallow: /search?
Disallow: /cart/

Sitemap: https://deinedomain.de/sitemap.xml

Gängige Muster:

  • WordPress: WordPress erzeugt eine virtuelle robots.txt, solange keine /public/robots.txt existiert. Yoast / Rank Math erlauben das Bearbeiten im Admin.
  • Next.js: Lege app/robots.ts an, das ein MetadataRoute.Robots-Objekt exportiert.
  • Astro: Eine statische public/robots.txt reinwerfen.

Nach dem Veröffentlichen mit Google Search Console → robots.txt-Tester testen.

Häufig gestellte Fragen

Kann ich Crawler blockieren, die ich nicht will?

Ja, mit User-agent: GPTBot gefolgt von Disallow: /. Aber das wirkt nur bei Crawlern, die robots.txt respektieren — und eine wachsende Liste von KI-Scrapern ignoriert sie. Für harte Blocks nutze Server-Level-User-Agent-Regeln.

Verhindert Disallow: Indexierung?

Nein, Disallow: blockiert das Crawlen, nicht das Indexieren. Eine Seite mit Disallow: kann immer noch in Suchergebnissen auftauchen (ohne Description), wenn andere Sites darauf verlinken. Um Indexierung zu verhindern, nutze stattdessen ein noindex-Meta-Tag oder den Header X-Robots-Tag: noindex.

Was, wenn ich alles erlauben will?

Die einfachste gültige Datei ist:

User-agent: *
Allow: /

Du kannst die Datei auch komplett weglassen, und Google interpretiert das als „alles Crawlen erlaubt” — aber du verlierst den Sitemap-Verweis und das explizite Signal.

Quellen

Zuletzt aktualisiert 2026-05-11