Niemand möchte, dass wertvolle Webinhalte in Suchmaschinen unsichtbar bleiben oder ­– schlimmer noch – dass vertrauliche Bereiche plötzlich in den Suchergebnissen auftauchen. Die gezielte Steuerung der Indexierung ist daher ein zentrales Element Ihrer technischen SEO-Arbeit. In diesem Beitrag erfahren Sie, wie Sie mit Robots-Meta-Tag, X-Robots-Tag, robots.txt und anderen Mitteln punktgenau steuern, was Google, Bing & Co. in ihren Index aufnehmen bzw. auf ihren Ergebnisseiten anzeigen – und was besser draußen bleibt.

Wie funktioniert die Indexierung?

Um die Details besser zu verstehen, ist es hilfreich, zunächst zu klären, wie Suchmaschinen Webseiten indexieren. Dies erfolgt in drei Schritten: Crawling, Rendering, Indexierung.

Crawling: Crawler (auch Robots, Bots, Spider) kommunizieren per HTTP mit Webservern und rufen Seiten auf, um Informationen über diese zu sammeln. Neue Seiten entdecken sie über Links auf bereits bekannten Seiten oder weil Webseitenbetreiber ihnen eine Sitemap einreichen. Google crawlt nach eigenen Angaben täglich Milliarden von Webseiten. Crawler durchsuchen aber nicht alle Seiten, die sie finden. Denn Webseiten können vom Crawling ausgeschlossen werden; auch passwortgeschützte Bereiche können nicht durchsucht werden.

Gefundene Ressourcen stellen die Bots die Dateien zunächst in eine Warteschlange. Ist eine URL an der Reihe, liest der Bot zuerst die robots.txt auf dem Webserver und überprüft, ob die URL gecrawlt werden darf. Wenn ja, schickt er eine HTTP-Anfrage und wertet er den HTTP-Header der Antwort (X-Robots-Tag) sowie den Robots-Meta-Tag im HTML-Header auf Indexierungseinschränkungen aus. Hat er grünes Licht, parst der Crawler die mit der Antwort erhaltenen Daten nach weiteren verlinkten URLs, die (wenn es keine nofollow-Kennzeichnung gibt) ebenfalls in der Warteschlange landen.

Rendering und Indexierung: Für die eigentliche Indexierung rendert der Crawler die Seite und führt auch eventuell vorhandenen JavaScript-Code aus, um alle Inhalte zu erkennen, die auch die Besucher sehen können. Der gerenderte HTML-Code wird noch einmal nach weiteren Links geparst und schließlich indexiert, um den Inhalt kategorisieren und seine Relevanz für Suchanfragen bewerten zu können. Dazu verarbeiten und analysieren Suchmaschinen alle maschinenlesbaren, potenziell informativen Elemente: Text, Meta-Tags, <title>-Elemente, Bildunterschriften oder ALT-Attribute von Bildern usw. Google ermittelt auch, ob sich Seiten sehr ähnlich oder gar Duplikate anderer Seiten im Internet sind (regionale Version, Mobilversion, Plagiat…) – falls die Suchmaschine dann keine bevorzugte („kanonische“ Seite ermitteln kann, schwächt solcher Duplicate Content die Bewertung.

Viele Stellschrauben für eine passgenaue Indexierung

Wie bereits anklang, gibt es für die Steuerung der Indexierung eine ganze Reihe von Angriffspunkten. Auf die genannten technischen Stellschrauben für eine optimale Indexierung werden wir gleich ausführlicher eingehen.

Aber das ist noch nicht alles. Darüber hinaus beeinflussen auch viele andere Aspekte die Indexierung, etwa die Qualität Ihrer Inhalte, das Design oder die nachvollziehbare Auszeichnung von Sprachversionen und kanonischen URLs – ein komplexes Thema, mit dem wir uns an dieser Stelle nicht näher befassen können. Für die direkte Kontrolle der Indexierung sind aber noch zwei wichtige Werkzeuge zu erwähnen: die Google Search Console und XML-Sitemaps.

Zentraler Anlaufpunkt für Indexierungsfragen ist die Google Search Console (Infos bei Google). Hier finden Sie Informationen über indexierte Seiten und eventuelle Indexierungsprobleme, fordern erneute Indexierungen an oder reichen Sitemaps ein. Bei Problemen sollten Sie stets hier mit der Suche nach einer Lösung beginnen.

Große Auswahl an günstigen Domain-Endungen – schon ab 0,08 € /Monat
Jetzt Domain-Check starten

XML-Sitemap: Hilft Crawlern auf die Sprünge

Auch auf der Website selbst gibt es noch ein wichtiges Mittel, um mehr Kontrolle über das Indexieren zu bekommen: die XML-Sitemap. Betreiber umfangreicher und/oder häufig geänderter Websites sollten auf jeden Fall eine Sitemap pflegen, denn sie liefert Suchmaschinen eine aktuelle, strukturierte Liste aller indexierungswürdigen URLs. Das garantiert zwar noch keine Aufnahme in den Index, beschleunigt aber die Entdeckung Ihrer wichtigen Seiten und aktualisierter Inhalte. WordPress und viele andere CMS erstellen Sitemaps automatisch.

Sitemaps können in diversen Formaten vorliegen. Eine XML-Datei ist aber die bei weitem vielseitigste Option, weil sie nicht nur Daten für HTML- und andere indexierbare Textdateien liefern kann, sondern auch für Bilder, Videos und andere Inhalte. Mehr Informationen finden Sie bei Google und auf sitemaps.org. Achtung: Der Priority-Tag erscheint besonders praktisch, wird aber leider von Google nicht unterstützt.

Weitere Steuerungsinstrumente für die Indexierung auf der Website selbst sind die robots.txt für die Crawling-Kontrolle (die auch den Pfad zur Sitemap enthält) sowie Robots-Meta-Tag und X-Robots-Tag, die steuern, wie Seiten indexiert und in den Suchergebnissen angezeigt werden. Diese Elemente und ihr Zusammenspiel sind das Thema des restlichen Beitrags.

robots.txt – der Türsteher

Die Datei robots.txt dient dazu, Suchmaschinen-Crawlern mitzuteilen, auf welche URLs einer Website sie zugreifen dürfen. Sie liegt im Stammverzeichnis der Domain und wird gelesen, noch bevor eine Suchmaschine einen HTTP-Request zu einzelnen Seiten-URLs sendet.

Die Datei enthält eine oder mehrere Regeln, die den Zugriff auf bestimmte Dateipfade blockiert (disallow) oder erlaubt (allow). Standardmäßig greift ein Crawler auf alle Seiten und Verzeichnisse zu, die nicht blockiert sind – es sei denn, es wird speziell ihm verboten, denn Regeln können per User-agent auf bestimmte Crawler beschränkt werden.

Ein Beispiel aus der Google-Dokumentation:

User-agent: Googlebot
Disallow: /nogooglebot/
User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml

Übersetzung: Der Googlebot darf auf der Seite www.example.com keine URLs indexieren, die mit www.example.com/nogooglebot/ beginnen. Alle anderen Bots dürfen die komplette Website crawlen. Diese letzte Regel dürfte auch weggelassen werden; sie beschreibt das Standardverhalten.

Google weist ausdrücklich darauf hin, dass die robots.txt nicht dazu verwendet werden kann, Dateien vollständig aus der Google-Suche auszuschließen. Eine blockierte Seite wird zwar nicht gecrawlt, kann aber dennoch im Suchindex landen. Sie wird dann allerdings ohne Beschreibung angezeigt. Wird von anderen Seiten darauf verlinkt, kann es sein, dass sie mit den dort gefundenen Informationen indexiert wird.

Hauptzweck der robots.txt ist es, eine Überlastung der Website durch Crawler-Anfragen zu vermeiden und (bei großen Websites) das Crawling-Budget, das Google jeder Website zuteilt, sinnvoll zu verteilen. Wer bestimmte Ressourcen verlässlich aus dem Suchindex heraushalten möchte, muss das Indexieren per noindex blockieren (siehe unten) oder den Zugriff darauf mit einem Passwort schützen.

Robots-Meta-Tag: seitengenau direkt im HTML

Sie kennen HTML-Meta-Tags bereits aus anderen SEO-Bereichen: Sie stehen im <head>-Abschnitt einer HTML-Seite und liefern Clients (Browser, Crawler) zusätzliche Informationen über diese. Wie andere Meta-Tags auch folgt der Robots-Tag diesem Muster:

<meta name="robots" content="noindex,follow">

Hier verhindert noindex die Aufnahme in den Index, während follow trotzdem das Verfolgen von Links gestattet. Dies ist das Standardverhalten und muss nicht angegeben werden.

Als Werte für das name-Attribut unterstützt Google neben robots auch googlebot (Bing hört auf bingbot). Sie können damit die Regel auf einzelne Bots beschränken: Mit dem Meta-Tag

<meta name="googlebot" content="nosnippet">

untersagen Sie nur Google die Snippet-Anzeige.

Über das content-Attribut können Sie die Indexierung detailliert steuern. Sie können auch mehr als eine Regel angeben, entweder mit separaten Meta-Tags oder wie oben im ersten Beispiel in einer Liste: noindex,follow. Bei Konflikten wendet Google die restriktivere Regel an.

Wichtige von Google unterstützte Regeln sind

  • noindex: Seite nicht in den Index aufnehmen; sie erscheint nicht in den Suchergebnissen
  • follow: Links auf der Seite folgen, um weitere URLs zu entdecken
  • nofollow: Links auf der Seite nicht folgen
  • nosnippet: keine Vorschau (Text-Snippet oder Video-Vorschau)
  • noimageindex: Bilder auf der Seite nicht indexieren
  • max-image-preview: steuert die Anzeige und Größe von Vorschaubildern (none, standard, large)
  • indexifembedded: Inhalte auf Seiten mit noindex-Regel trotzdem indexieren, wenn sie woanders eingebettet sind (mehr Infos)
  • unavailable_after: Zeitpunkt angeben, nach dem die Seite nicht mehr angezeigt werden soll

Hinweis: Die oft erwähnten Regeln nocache und noarchive werden von Google nicht mehr verwendet. Bing unterstützt sie dagegen und steuert damit nicht nur das Cachen einer Seite, sondern auch die Nutzung für Microsofts KI-Lösungen. Dafür kennt Bing diverse andere Regeln nicht, etwa follow/nofollow (siehe Liste von Bing unterstützter Tags und Attribute).

X-Robots-Tag: für beliebige Ressourcen per HTTP-Header

HTTP-Nachrichten enthalten u. a. auch sogenannte Kopfzeilen oder Header. Fragt ein Suchmaschinen-Crawler per HTTP eine URL an, schickt der Webserver ihm eine HTTP-Antwort, in deren Kopfzeilen auch die oben genannten Indexierungsregeln stecken können – markiert durch das X-Robots-Tag.

Beispiel:

HTTP/1.1 200 OK
Date: Sat, 24 May 2025 10:00:13 GMT
Server: Apache
(…)
X-Robots-Tag: noindex
X-Robots-Tag: unavailable_after: Wed, 03 Dec 2025 00:00:00 GMT
(…)

Der X-Robots-HTTP-Header bietet also denselben Funktionsumfang wie der Robots-Meta-Tag. Anders als dieser ist er aber nicht auf HTML-Seiten beschränkt, sondern wirkt schon auf Server-Ebene und kann für jede beliebige Ressource eingesetzt werden – etwa PDFs, ZIP-Archive oder Bilder. Google empfiehlt ausdrücklich, die Indexierung von Nicht-HTML-Ressourcen mit dem X-Robots-Tag zu steuern.

Wofür dient welche Stellschraube?

Um an den richtigen Stellschrauben zu drehen, hilft ein Überblick über die Rollenverteilung:

Element Primäre Aufgabe Gilt für Blockiert sicher
Indexierung?
robots.txt Crawling steuern Konkrete Pfade für Verzeichnisse oder Dateien auf einer Domain oder Subdomain Nein
Robots‑Meta‑Tag
(HTML)
Indexierung & SERP-Anzeige steuern Einzelne HTML‑Seiten Ja
X‑Robots‑Tag
(HTTP)
Indexierung & SERP-Anzeige steuern Beliebige Ressourcen (HTML, PDF, Bilder …) Ja

Der entscheidende Unterschied: robots.txt ist für die Crawling-Kontrolle, die Robots‑Tags für die Index- und Anzeigekontrolle zuständig.

Eine zu restriktive robots.txt kann Ihnen auf die Füße fallen, wenn wichtige Seiten nicht indexiert werden können, aber auch, wenn Sie eigentlich die Indexierung verhindern wollen: Wenn der Crawler eine URL nicht mehr aufrufen kann, kann er auch HTTP- oder HTML-Header nicht auswerten – damit greift auch kein noindex.

Wann nutze ich was? Beispiel-Szenarien

Beispiel-Szenario Empfohlene Lösung Warum?
Website komplett verbergen (z. B. Staging-Umgebung) disallow: / in robots.txt

Passwortschutz

Spart Crawling‑Budget

Passwort verhindert Indexierung über externe Links

Einzelne Content‑Seiten mit wenig Inhalt ausschließen <meta name=“robots“ content=“noindex,follow“> Vermeidet Qualitäts‑Abwertung, Link‑Juice bleibt erhalten
Download‑Ordner (PDFs, MP3s) nicht indexieren X-Robots-Tag: noindex,nofollow Keine HTML-Tags möglich
Vorabveröffentlichung (z. B. Produktseite, News), die erst ab einem bestimmten Datum öffentlich sein soll <meta name=“robots“ content=“noindex,follow“>

 

Temporär verbergen, während bereits intern verlinkt werden kann

 

Ein Verzeichnis vertraulicher Inhalte schützen Passwortschutz für Verzeichnis

disallow: / in robots.txt

Wenn Passwort nicht möglich oder um ganz sicherzugehen: noindex,nofollow

Passwort verhindert Indexierung

Spart Crawling-Budget

Je nach Dateityp per HTML oder HTTP

Dranbleiben!

Die Kontrolle der Indexierung ist kein einmaliges Projekt, sondern ein kontinuierlicher Prozess. Mit den hier beschriebenen Werkzeugen behalten Sie stets den Überblick und können Suchmaschinen aktiv beeinflussen, statt auf Ihr Glück zu vertrauen. Bleiben Sie dran – und behalten Sie die Google Search Console im Blick, um bei Problemen zügig gegensteuern zu können.

Titelmotiv: Photo by Maksym Kaharlytskyi on Unsplash

Host Europe

Große Auswahl an günstigen Domain-Endungen – schon ab 0,08 € /Monat
Jetzt Domain-Check starten