Wer beim spektakulären Yandex Leak letzten Jahres dachte: „Nice, aber Google wäre cooler.“ kommt in diesem Jahr auf seine Kosten. Der Yandex-Leak 2023 konzentrierte sich zwar hauptsächlich auf den Quellcode und die Ranking-Faktoren, während der Google API Leak detaillierte Dokumentationen über die API-Struktur und spezifische Algorithmen beinhaltete. Trotzdem lassen sich aus dem diesjährigen Leak wie schon beim russischen Kollegen spannende Dinge ableiten. 

Die Anfänge lesen sich wie ein Thriller: Am 5. Mai 2024 erhält Rand Fishkin, SEO Legende und Gründer von SparkToro, eine E-Mail von einer anonymen Quelle, die behauptet, Zugang zu einer umfangreichen Leckage von API-Dokumentationen aus der Google-Suchabteilung zu haben. Nach dem ersten Kontakt mit der anonymen Quelle, die sich später als Erfan Azimi herausstellt, überprüft Fishkin die Dokumente mit Hilfe von SEO-Experten wie Mike King von iPullRank.

Google API Leak - Abbildung1: Detektivarbeit für Rand Fishkin; Foto: SparkToro

Detektivarbeit für Rand Fishkin; Foto: SparkToro

Die durchgesickerten Dokumente umfassen über 2.500 Seiten und enthalten Informationen über mehr als 14.000 Attribute (eine Liste der Attribute findet sich unter dixonjones.com), die mit der Google-API verbunden sind. Diese Dokumente waren anscheinend zwischen März und Mai 2024 versehentlich öffentlich zugänglich und wurden dann von der Plattform GitHub entfernt. Während dieser Zeit wurden die Dokumente von Drittanbietern indexiert und sind somit weiterhin zugänglich, obwohl Google sie entfernt hat. Besonders spannend sind die Erkenntnisse, die im klaren Widerspruch zu öffentlichen Aussagens Google stehen. 

Widersprüche zu öffentlichen Aussagen

Die durchgesickerten Informationen widersprechen vielen öffentlichen Aussagen von Google über die Funktionsweise der Suchmaschine. Beispielsweise zeigen die Dokumente, dass Klickdaten in die Ranking-Signale einfließen, dass Subdomains separat bewertet werden und dass das Alter einer Domain ein Ranking-Faktor ist – alles Punkte, die Google in der Vergangenheit bestritten hat.

Wie Aleyda Solis im Majestic Podcast zum Thema schön anmerkt, geht es nun allerdings nicht darum, mit dem Finger auf Google zu zeigen und das Unternehmen zu beschuldigen, Falschaussagen zu treffen bzw. „Nebelkerzen zu werfen“, wie es üblicherweise in der SEO Branche heißt. Unternehmenssprecher seien oft aus internen Gründen daran gehindert, alle Fakten auf den Tisch zu packen, wofür man Verständnis haben sollte. Vielmehr zeigen uns diese Widersprüche allerdings, wie wichtig es sei, offiziellen Aussagen von Google mit einer gesunden Portion Skepsis zu begegnen. Gerade jüngere SEOs, die mit unzähligen frei verfügbaren, von Google selbst zur Verfügung gestellten Informationen rund um SEO aufwachsen, tendieren möglicherweise eher dazu, das durch Google vermittelte Wissen für bare Münze zu nehmen und nicht ausreichend zu hinterfragen oder zu testen. 

Schauen wir uns im Folgenden nun im Detail an, welche Erkenntnisse der Google API Leak gebracht hat.

Große Auswahl an günstigen Domain-Endungen – schon ab 0,08 € /Monat
Jetzt Domain-Check starten

Wichtige Erkenntnisse aus dem Leak

Einige der wichtigsten Enthüllungen aus den geleakten Dokumenten umfassen:

Verwendung von Klicksignalen

Google hat wiederholt bestritten, dass Klicksignale (z. B. Klicks auf Suchergebnisse) zur Bewertung von Websites verwendet werden. In seiner Aussage im DOJ-Antitrust-Prozess enthüllte Pandu Nayak jedoch die Existenz der Ranking-Systeme Navboost und Glue und bestätigte damit weit verbreitete Zweifel an der Grundaussage Googles. Navboost, ein System, das seit etwa 2005 existiert, nutzt klickbasierte Messungen, um Rankings in der Websuche zu verbessern oder zu verschlechtern. Navboost sammelt Daten von der Google-Toolbar und später von Chrome, um Suchanfragen zu bewerten. Es nutzt die Anzahl der Suchanfragen für ein bestimmtes Schlüsselwort, die Anzahl der Klicks auf ein Suchergebnis und die Länge der Klicks, um die Suchergebnisse zu verbessern.

Trotz zahlreicher Hinweise und Patente, die die Verwendung von Klickdaten zur Veränderung von Suchergebnissen belegen, hat Google immer wieder bestritten, Klicks direkt in Rankings zu verwenden. Rand Fishkin selbst hat bei einigen Konferenzen oder Webinaren Rankings beeinflusst, indem er seine Zuschauer dazu aufforderte, bestimmte Ergebnisse anzuklicken und damit deren Ranking zu verbessern. Tatsächlich hatten diese Klicks auch immer Effekte, allerdings nie langfristig. Denn auch hier gilt: Qualität vor Quantität. 

Die geleakten Dokumente zeigen, dass qualitative Klickdaten eine entscheidende Rolle spielen. Beispielsweise wird das Datum des „letzten guten Klicks“ zu einem Dokument erfasst, was darauf hinweist, dass der Traffic-Verlust im Laufe der Zeit die Platzierung einer Seite beeinflussen kann. Lange Klicks, die auf eine erfolgreiche Suchsitzung hinweisen, werden ebenfalls erfasst, obwohl Google öffentlich der „dwell time“ keine Bedeutung beigemessen hat.

In den Dokumenten wird außerdem dargestellt, dass Nutzer als Wähler betrachtet werden, deren Klicks als Stimmen gezählt werden. Das System segmentiert die Daten nach Land und Gerät und speichert, welches Ergebnis den längsten Klick während einer Sitzung hatte. 

Google API Leak - Abbildung 2: Nutzer werden als Wähler betrachtet; Foto: Arnaud Jaegers, Unsplash+

Nutzer werden als Wähler betrachtet; Foto: Arnaud Jaegers, Unsplash+

Unterschiedliche Bewertung von Seitenebenen

Navboost wird in den geleakten Dokumenten 84 Mal erwähnt und ist in fünf Modulen namentlich aufgeführt. Es gibt Hinweise darauf, dass die Bewertungen auf Subdomain-, Root-Domain- und URL-Ebene erfolgen, was darauf hinweist, dass Google verschiedene Ebenen einer Website unterschiedlich behandelt. Die Dokumente zeigen auch, wie Daten aus diesem System den Panda-Algorithmus beeinflusst haben könnten.

Cookie- und Browserdaten

Google verwendet Cookie-Historien und Daten von eingeloggten Chrome-Nutzern zur Qualitätsbewertung. Diese Informationen spielen eine zentrale Rolle bei der Erkennung und Verhinderung manueller und automatisierter Manipulationen der Suchergebnisse. 

Cookies sind kleine Textdateien, die von Webseiten auf den Geräten der Nutzer gespeichert werden. Sie enthalten Informationen über die Interaktionen der Nutzer mit der Webseite, wie besuchte Seiten, Klicks und Suchanfragen. Browserdaten umfassen zusätzlich Informationen, die vom Browser selbst gesammelt werden, wie die Verweildauer auf einer Seite, die Scrolltiefe und die Häufigkeit der Besuche. 

Google verwendet diese Daten, um ein umfassendes Bild von der Nutzerinteraktion mit Webseiten zu erhalten. Dies umfasst sowohl das Verhalten auf einzelnen Seiten als auch das übergreifende Navigationsmuster durch das Web. Durch die Analyse von Cookie- und Browserdaten kann Google ungewöhnliche oder verdächtige Muster identifizieren, die auf manuelle oder automatisierte Manipulationen hinweisen könnten. Beispielsweise könnten eine hohe Anzahl kurzer Besuche oder wiederholte Klicks auf bestimmte Elemente als Anzeichen für Klick-Spam gewertet werden. 

Google betrachtet das Verhalten der Nutzer auf Webseiten als Indikator für die Qualität und Relevanz der Inhalte. Lange Verweildauern und tiefes Scrollen deuten darauf hin, dass die Nutzer die Inhalte als wertvoll und relevant empfinden. Diese Daten helfen Google, hochwertige Inhalte zu identifizieren und entsprechend in den Suchergebnissen höher zu platzieren. Eingeloggte Chrome-Nutzer liefern besonders wertvolle Daten, da Google ihre Suchhistorie und Interaktionen über verschiedene Geräte hinweg verfolgen kann. 

Geografische Daten

Navboost berücksichtigt geografische Unterschiede bei Klickdaten und passt die Suchergebnisse entsprechend an. 

Google API Leak Abbildung 3: Berliner oder Krapfen? Ihre Zielgruppenansprache sollte regional eindeutig sein. Foto: Neetu Laddha, Unsplash+

Berliner oder Krapfen? Ihre Zielgruppenansprache sollte regional eindeutig sein. Foto: Neetu Laddha, Unsplash+

Die Berücksichtigung geografischer Unterschiede beinhaltet mehrere Aspekte:

  • Regionale Präferenzen: Nutzer aus verschiedenen Regionen können unterschiedliche Präferenzen für bestimmte Arten von Inhalten haben. Navboost passt die Suchergebnisse an, indem es Webseiten priorisiert, die für die jeweilige Region besonders relevant sind. 
  • Sprachliche Unterschiede: Verschiedene Regionen sprechen unterschiedliche Sprachen, und selbst innerhalb derselben Sprache können regionale Unterschiede im Sprachgebrauch bestehen. Navboost erkennt diese Unterschiede und stellt sicher, dass die Suchergebnisse sprachlich und kulturell relevant sind.
  • Gerätespezifische Unterschiede: Die Art und Weise, wie Nutzer mit Suchmaschinen interagieren, kann je nach Region und Gerätetyp variieren. Zum Beispiel nutzen Nutzer in urbanen Gebieten möglicherweise häufiger mobile Geräte, während Nutzer in ländlichen Gebieten eher Desktops verwenden. Navboost berücksichtigt diese Unterschiede und optimiert die Suchergebnisse entsprechend.
  • Lokale Ereignisse und Trends: Geografische Unterschiede beinhalten auch die Berücksichtigung lokaler Ereignisse und Trends. Navboost kann aktuelle Ereignisse, wie lokale Feiertage oder wichtige Nachrichten, berücksichtigen und die Suchergebnisse entsprechend anpassen. Dies stellt sicher, dass die Nutzer relevante und aktuelle Informationen erhalten.

Whitelists während der Pandemie und Wahlen

Während der COVID-19-Pandemie und bei demokratischen Wahlen hat Google Whitelists verwendet, um sicherzustellen, dass vertrauenswürdige Websites in den Suchergebnissen höher platziert werden. Diese Praxis wurde eingeführt, um die Verbreitung von Fehlinformationen und schädlichen Inhalten zu minimieren. 

In Zeiten von Krisen wie der Pandemie und bei wichtigen politischen Ereignissen ist die Gefahr besonders groß, dass falsche Informationen schnell verbreitet werden und ernsthafte Konsequenzen nach sich ziehen können. Durch die Nutzung von Whitelists konnte Google garantieren, dass nur Webseiten, die als zuverlässig und glaubwürdig eingestuft wurden, in den oberen Suchergebnissen auftauchten

Dies bedeutete, dass Regierungswebsites, renommierte Gesundheitsorganisationen wie die WHO und CDC sowie etablierte Nachrichtenquellen bevorzugt behandelt wurden, wenn Nutzer nach Informationen zu COVID-19 suchten. Ähnlich wurde bei Wahlen verfahren: Google stellte sicher, dass offizielle Wahlinformationen und vertrauenswürdige Nachrichtenquellen prominenter angezeigt wurden, um die Verbreitung von Falschinformationen über Wahlprozesse und Ergebnisse zu verhindern.

Was bedeutet das nun für Ihre SEO?

Was genau kann ich von diesen Erkenntnissen jetzt für meine SEO Strategie ableiten? Gehen wir die einzelnen Punkte im Detail durch:

  • Verwendung von Klicksignalen: Die Bestätigung, dass Google Klickdaten verwendet, um Suchergebnisse zu bewerten, bedeutet, dass das Nutzerverhalten eine wesentliche Rolle spielt. Lange Klicks, die auf eine erfolgreiche Suchsitzung hinweisen, werden positiv bewertet. Dies bedeutet, dass Websites darauf abzielen sollten, Inhalte zu erstellen, die die Nutzer fesseln und sie dazu bringen, länger auf der Seite zu bleiben. Interne Links, die auf weitere relevante Inhalte verweisen, sollten nutzerfreundlich platziert sein. Generell sollte alles vermieden werden, was Nutzer bereits beim Betreten der Seite abschreckt (zu lange Ladezeiten, Pop-ups etc.). 

Also: Eigentlich nicht neu, trotzdem ist es gut, sich noch einmal deutlich zu machen, wie wichtige glückliche und treue Nutzer auf der eigenen Webpräsenz sind und wie eng UX und SEO verzahnt sind. Und last but not least: Wir sollten niemals unterschätzen, wie schlau Google bei der Auswertung von Nutzersignalen geworden ist.

  • Unterschiedliche Bewertung von Seitenebenen: Wir erinnern uns an das Panda Update, bei dem Websitebetreibern minderwertige Inhalte auf Subdomains oder auf einzelnen URLs domainweit um die Ohren geflogen sind. Der Leak zeigt abermals, wie wichtig eine gepflegte Gesamtpräsenz bei der Bewertung von Websites ist. Gerade auch im Hinblick auf die aktuell heiß diskutierten Site Reputation Abuse Maßnahmen durch Google sollte man also tunlichst vermeiden, bei gewissen Subdomains ein bis zwei Augen zuzudrücken und qualitative Mängel hinzunehmen
  • Cookie- und Browserdaten: Google nutzt Cookie-Historien und Browserdaten, um die Qualität von Webseiten zu bewerten und Manipulationen zu erkennen. Websites sollten daher sicherstellen, dass sie ein positives und authentisches Nutzerverhalten fördern. Tunlichst vermeiden sollte man typische Clickbaits im Social Web oder Cold Mail Aktionen, die zu einer Enttäuschung und damit dem Absprung des Nutzers führen oder schlampige SEA Kampagnen, bei denen die entsprechenden Landingpages nicht zur Anzeige passen. Neben monetären Verlusten führen solche Aktionen zu auffälligen Klickmustern, die es zu vermeiden gilt
  • Geografische Daten: Die Berücksichtigung geografischer Unterschiede bei Klickdaten bedeutet, dass Websites lokal relevante Inhalte bereitstellen sollten. Dies kann die Erstellung von Inhalten in verschiedenen Sprachen und/oder Dialekten und die Anpassung an lokale Trends und Ereignisse umfassen. Wichtig ist hier auch die saubere technische Implementierung von beispielsweise dem hreflang Tag oder der Sprachdeklaration und die Verwendung der korrekten Sprache in der URL. 

Beim organischen Backlink-Aufbau und der Online PR sollten regionale Besonderheiten und beim Seeding die entsprechenden Zielgruppen berücksichtigt werden. Passend zum Thema: Es ist gut möglich, dass Google regional sowie thematisch irrelevante Links vollständig ignoriert. 

  • Whitelists während der Pandemie und Wahlen: Die Verwendung von Whitelists zur Priorisierung vertrauenswürdiger Websites in Krisenzeiten zeigt, wie wichtig es ist, als vertrauenswürdige Quelle anerkannt zu werden. Websites sollten daran arbeiten, ihre Autorität und Glaubwürdigkeit zu stärken, indem sie qualitativ hochwertige Inhalte bereitstellen, von renommierten Quellen zitiert werden und eine transparente und vertrauenswürdige Online-Präsenz aufbauen. 

Bei der Keyword Analyse und Optimierung auf Keywordräume sollte man die eigenen Brand-Keywords nicht vernachlässigen. Wir wissen schon lange, dass Marken klare Rankingvorteile haben. Je stärker eine Marke ist, desto vertrauenswürdiger ist sie. Das bedeutet auch: Search Traffic, der von Markennamen verursacht wird, zahlt auf die Wahrnehmung der Marke als solche ein. 

Fazit: Der Google API Leak

Zusammengefasst lässt sich sagen: Wenn Sie schon immer produktgetriebenes SEO gemacht, den Nutzer und die Nutzererfahrung in den Fokus gerückt haben, qualifizierte Autoren zu Wort haben kommen lassen und regionale relevante Informationen geteilt haben, muss sich an Ihrer SEO Strategie gar nichts ändern. 

Der Leak zeigt aber erneut, auf welche Faktoren Wert gelegt werden sollte und wie gut Google darin ist, Sachverhalte im Kontext zu verstehen. Wer 2024 noch immer versucht, pro Keyword eine passende Landingpage zu erstellen, sollte seine SEO Aktivitäten gründlich überdenken. Wer jedoch das Konzept von Entitäten verstanden hat und dieses in seine SEO einfließen lässt, muss sich vom Google API Leak nicht beunruhigen lassen. 

Google hat übrigens auf das Leak reagiert und die Öffentlichkeit zur Contenance aufgerufen. Das Unternehmen betont, dass die durchgesickerten Dokumente aus dem Zusammenhang gerissene, veraltete oder unvollständige Informationen enthalten könnten und dass nicht alle beschriebenen Faktoren tatsächlich für die Ranking-Algorithmen verwendet werden.

„We would caution against making inaccurate assumptions about Search based on out-of-context, outdated, or incomplete information,“ so ein Google-Sprecher dem Register gegenüber. „We’ve shared extensive information about how Search works and the types of factors that our systems weigh, while also working to protect the integrity of our results from manipulation.“

Ob das nun wieder eine Nebelkerze ist? Wir wissen es nicht. Aber wir können mit Sicherheit sagen: Qualitativ hochwertiges und langfristig ausgelegtes SEO zahlt sich aus, Manipulationen hingegen verpuffen nach kurzer Zeit oder beeinflussen sogar negativ Ihre Ranking-Erfolge.

Titelmotiv: Bild von jay88ld0 auf Pixabay

Astrid Kramer

Große Auswahl an günstigen Domain-Endungen – schon ab 0,08 € /Monat
Jetzt Domain-Check starten