technical

Sitemap in robots.txt

MetricSpot prüft die robots.txt auf eine Sitemap:-Zeile. So entdecken Google, Bing und die meisten KI-Crawler deine Sitemap automatisch, ohne dass du sie manuell einreichst.

Was diese Prüfung macht

Holt /robots.txt und sucht nach einer oder mehreren Sitemap:-Direktiven. Verifiziert, dass die URL absolut ist (relative URLs sind laut Spezifikation nicht erlaubt) und erreichbar.

Warum es zählt

Die meisten Crawler entdecken deine Sitemap auf eine von drei Arten:

  1. Du reichst sie in Google Search Console / Bing Webmaster Tools ein.
  2. Du deklarierst sie in der robots.txt via Sitemap:.
  3. Der Crawler rät als letztes Mittel /sitemap.xml.

Methode 2 ist die, die für Crawler skaliert, bei denen du keinen Account hast — Googlebot, Bingbot, GPTBot, ClaudeBot, PerplexityBot, Applebot, Yandex, Baidu und Dutzende kleinerer Indexer lesen die robots.txt, bevor sie irgendetwas crawlen. Deine Sitemap dort zu deklarieren ist eine Konfigurationszeile, die den Standort allen gleichzeitig mitteilt.

Wenn du das überspringst, wird eine CMS-generierte Sitemap unter einer Nicht-Standard-URL (/sitemap_index.xml, /wp-sitemap.xml, /sitemap-0.xml) möglicherweise nie von den kleineren Crawlern entdeckt, die keine alternativen Pfade probieren.

So behebst du es

Hänge eine Sitemap:-Zeile an /robots.txt. Nutze die absolute, kanonische URL — gleiches Schema (https), gleicher Hostname (mit oder ohne www, passend zu deinem Canonical), keine nachgelagerten Weiterleitungen.

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

Mehrere Sitemaps sind erlaubt. Liste jede einzeln auf oder verweise auf einen Sitemap-Index, der die anderen referenziert:

Sitemap: https://example.com/sitemap-pages.xml
Sitemap: https://example.com/sitemap-posts.xml
Sitemap: https://example.com/sitemap-products.xml

Regeln:

  • Nur absolute URLs. Sitemap: /sitemap.xml ist laut Spezifikation ungültig. Manche Crawler tolerieren es, andere ignorieren die Direktive komplett.
  • Stimme das kanonische Schema/den Host ab. Ist deine Seite https://www.example.com, deklariere nicht https://example.com/sitemap.xml. Google behandelt die Sitemap als zugehörig zu dem Host, auf dem sie deklariert ist.
  • Die Sitemap:-Direktive ist global, nicht auf einen User-agent:-Block beschränkt. Setze sie auf eine eigene Zeile, oben oder unten in der Datei — die Position ist egal.

nginx (eine statische robots.txt ausliefern):

location = /robots.txt {
  alias /var/www/example.com/robots.txt;
}

Next.js (App Router) — dynamische robots.txt:

// app/robots.ts
import type { MetadataRoute } from "next";

export default function robots(): MetadataRoute.Robots {
  return {
    rules: [{ userAgent: "*", allow: "/" }],
    sitemap: "https://example.com/sitemap.xml",
  };
}

Astro: Lege eine literale public/robots.txt in dein Projekt oder generiere eine in src/pages/robots.txt.ts:

// src/pages/robots.txt.ts
import type { APIRoute } from "astro";

export const GET: APIRoute = ({ site }) => {
  const body = `User-agent: *
Allow: /

Sitemap: ${new URL("sitemap-index.xml", site).href}
`;
  return new Response(body, { headers: { "Content-Type": "text/plain" } });
};

Wenn du @astrojs/sitemap nutzt, emittiert es sitemap-index.xml — zeig die Direktive auf den Index, nicht auf einzelne Sitemaps.

WordPress: Yoast SEO und Rank Math fügen die Sitemap:-Zeile beide automatisch der virtuellen robots.txt hinzu. Hast du eine echte /robots.txt-Datei auf der Platte, kann das Plugin sie nicht überschreiben — lösche entweder die Datei oder hänge die Sitemap:-Zeile manuell an.

Cloudflare Workers / Pages: robots.txt ist nur statischer Text — leg sie in dein public/-Verzeichnis. Generierst du sie via Worker, setze content-type: text/plain, damit Crawler sie korrekt parsen.

Kombiniere mit robots.txt-Datei, XML-Sitemap und KI-Crawler erlauben — die drei zusammen richten die gesamte Crawl-Entdeckungsoberfläche ein.

Häufig gestellte Fragen

Muss ich die Sitemap trotzdem in der Search Console einreichen, wenn sie in der robots.txt steht?

Ja, für Google. Die Search-Console-Einreichung gibt dir Pro-Sitemap-Indexierungs-Statistiken, Fehlerberichte und “Entdeckt, derzeit nicht indexiert”-Diagnosen, die die Auto-Entdeckung nicht liefert. Nutze beides — robots.txt für den Rest des Webs, Search Console für Sichtbarkeit speziell bei Google.

Kann ich mehr als eine Sitemap:-Zeile haben?

Ja. Die Spezifikation erlaubt mehrere Sitemap-Deklarationen. Liste sie entweder alle auf oder verweise auf eine Sitemap-Index-Datei, die die anderen referenziert (sauberer, einfacher zu pflegen).

Was, wenn sich meine Sitemap-URL ändert?

Aktualisiere die Sitemap:-Zeile, und Googlebot greift sie beim nächsten Lesen der robots.txt auf (meist innerhalb von 24 Stunden). Hast du eine alte Sitemap in der Search Console eingereicht, entferne sie manuell — die robots.txt sagt Crawlern nur, wo die neue ist, sie lässt die alte nicht ablaufen.

Quellen

Zuletzt aktualisiert 2026-05-11