robots.txt-Datei - MetricSpot Docs

Q: Kann ich Crawler blockieren, die ich nicht will?

Ja, mit User-agent: GPTBot gefolgt von Disallow: /. Aber das wirkt nur bei Crawlern, die robots.txt respektieren — und eine wachsende Liste von KI-Scrapern ignoriert sie. Für harte Blocks nutze Server-Level-User-Agent-Regeln.

Q: Verhindert `Disallow:` Indexierung?

Nein, Disallow: blockiert das Crawlen, nicht das Indexieren. Eine Seite mit Disallow: kann immer noch in Suchergebnissen auftauchen (ohne Description), wenn andere Sites darauf verlinken. Um Indexierung zu verhindern, nutze stattdessen ein noindex-Meta-Tag oder den Header X-Robots-Tag: noindex.

Q: Was, wenn ich alles erlauben will?

Die einfachste gültige Datei ist: ` User-agent: * Allow: / ` Du kannst die Datei auch komplett weglassen, und Google interpretiert das als „alles Crawlen erlaubt" — aber du verlierst den Sitemap-Verweis und das explizite Signal.

Was diese Prüfung macht

Macht ein GET auf https://deinedomain.de/robots.txt und bestätigt, dass die Antwort 200 mit einer parsbaren Robots-Datei ist. Eine fehlende Datei (404) oder ein Nicht-200-Status lässt die Prüfung scheitern.

Warum es wichtig ist

robots.txt ist die erste URL, die jeder Crawler — Googlebot, GPTBot, ClaudeBot, PerplexityBot, archive.org — abruft, bevor er deine Site scannt. Es ist deine einzige Chance, um:

Crawler auf deine Sitemap zu lotsen mit einer Sitemap:-Zeile — verbessert die Discovery für Seiten, die nicht von der Startseite verlinkt sind, dramatisch.
Crawl-Fallen zu blockieren: unendliche Kalender, Facetten-Filter, interne Suchergebnis-Seiten.
KI-Crawler gezielt zu erlauben oder zu sperren (separate Prüfung).

Ohne robots.txt sagst du „crawlt alles, was ihr findet, in beliebiger Reihenfolge” — und Crawler verschwenden Budget auf Seiten, die dir egal sind.

Wie du es behebst

Lege /public/robots.txt an (oder wo dein Server statische Dateien ausliefert) — mit mindestens:

User-agent: *
Allow: /

Sitemap: https://deinedomain.de/sitemap.xml

Das ist das „offene Site”-Baseline. Um bestimmte Pfade zu blockieren:

User-agent: *
Disallow: /admin/
Disallow: /search?
Disallow: /cart/

Sitemap: https://deinedomain.de/sitemap.xml

Gängige Muster:

WordPress: WordPress erzeugt eine virtuelle robots.txt, solange keine /public/robots.txt existiert. Yoast / Rank Math erlauben das Bearbeiten im Admin.
Next.js: Lege app/robots.ts an, das ein MetadataRoute.Robots-Objekt exportiert.
Astro: Eine statische public/robots.txt reinwerfen.

Nach dem Veröffentlichen mit Google Search Console → robots.txt-Tester testen.

Häufig gestellte Fragen

Kann ich Crawler blockieren, die ich nicht will?

Ja, mit User-agent: GPTBot gefolgt von Disallow: /. Aber das wirkt nur bei Crawlern, die robots.txt respektieren — und eine wachsende Liste von KI-Scrapern ignoriert sie. Für harte Blocks nutze Server-Level-User-Agent-Regeln.

Verhindert `Disallow:` Indexierung?

Nein, Disallow: blockiert das Crawlen, nicht das Indexieren. Eine Seite mit Disallow: kann immer noch in Suchergebnissen auftauchen (ohne Description), wenn andere Sites darauf verlinken. Um Indexierung zu verhindern, nutze stattdessen ein noindex-Meta-Tag oder den Header X-Robots-Tag: noindex.

Was, wenn ich alles erlauben will?

Die einfachste gültige Datei ist:

User-agent: *
Allow: /

Du kannst die Datei auch komplett weglassen, und Google interpretiert das als „alles Crawlen erlaubt” — aber du verlierst den Sitemap-Verweis und das explizite Signal.