Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Die Insidergeschichte des Suchalgorithmus von Google wurde enthüllt und 2.500 Seiten mit Dokumenten mit echten Namen wurden durchgesickert! Such-Ranking-Lügen aufgedeckt

Die Insidergeschichte des Suchalgorithmus von Google wurde enthüllt und 2.500 Seiten mit Dokumenten mit echten Namen wurden durchgesickert! Such-Ranking-Lügen aufgedeckt

PHPz
PHPzOriginal
2024-06-11 09:14:23935Durchsuche

Kürzlich wurden 2.500 Seiten interner Google-Dokumente durchgesickert und enthüllten, wie die Suche, „der mächtigste Schiedsrichter im Internet“, funktioniert.

Der Mitbegründer und CEO von SparkToro ist eine anonyme Person. Er veröffentlichte einen Blog-Beitrag auf seiner persönlichen Website, in dem er behauptete, dass „eine anonyme Person mit mir Tausende von Seiten durchgesickerter Google Search API-Dokumentation und allen in der Suchmaschinenoptimierung geteilt hat.“ Jeder sollte sie sehen! ist sein Vorschlag.

Die Insidergeschichte des Suchalgorithmus von Google wurde enthüllt und 2.500 Seiten mit Dokumenten mit echten Namen wurden durchgesickert! Such-Ranking-Lügen aufgedecktDa er auf diesem Gebiet hohes Ansehen genießt, musste Rand Fishkin diese unbekannte anonyme Person natürlich sorgfältig prüfen, bevor er die Nachricht verbreitete.

Letzten Freitag führte Rand Fishkin nach dem Versenden mehrerer E-Mails einen Videoanruf mit dem mysteriösen Mann. Natürlich zeigte die andere Partei sein Gesicht nicht.

Durch diesen Anruf konnte Rand mehr über das durchgesickerte Dokument erfahren: Es handelt sich um ein API-Dokument mit mehr als 2.500 Seiten und 14.014 Eigenschaften. Diese Eigenschaften ähneln dem internen Teil von Google „Content API Warehouse“.

Die Insidergeschichte des Suchalgorithmus von Google wurde enthüllt und 2.500 Seiten mit Dokumenten mit echten Namen wurden durchgesickert! Such-Ranking-Lügen aufgedecktLaut dem Commit-Verlauf des Dokuments wurde der Code am 27. März 2024 auf GitHub hochgeladen und erst am 7. Mai 2024 gelöscht.

Nach dem Anruf bestätigte Rand den beruflichen Werdegang der anonymen Person und ihre gemeinsamen Bekannten in der Marketingwelt. Er beschloss, die Erwartungen von Anonymous zu erfüllen, indem er einen Artikel veröffentlichte, um das Leck zu verbreiten und „einige der Lügen zu widerlegen, die Google-Mitarbeiter seit Jahren verbreiten“.

Matt Cutts, Gary Ilyes und John Mueller bestreiten, dass Google seit Jahren klickbasierte Nutzerdaten für Rankings verwendet

Die Insidergeschichte des Suchalgorithmus von Google wurde enthüllt und 2.500 Seiten mit Dokumenten mit echten Namen wurden durchgesickert! Such-Ranking-Lügen aufgedecktRands Artikel spricht über Sandboxing, Klickraten, Verweildauer usw. die sich auf SEO-Faktoren auswirken, was Google zuvor energisch bestritten hat.

Sobald der Artikel veröffentlicht wurde, sorgte er sofort für Aufruhr in der öffentlichen Meinung, insbesondere im SEO-Bereich.

Ein anderer SEO-Experte, Mike King, veröffentlichte ebenfalls einen Artikel, der die „Geheimnisse des Google-Algorithmus“ enthüllte. Die Insidergeschichte des Suchalgorithmus von Google wurde enthüllt und 2.500 Seiten mit Dokumenten mit echten Namen wurden durchgesickert! Such-Ranking-Lügen aufgedeckt

Die Insidergeschichte des Suchalgorithmus von Google wurde enthüllt und 2.500 Seiten mit Dokumenten mit echten Namen wurden durchgesickert! Such-Ranking-Lügen aufgedeckt

Mike King sagte: „Die durchgesickerten Dokumente betreffen, welche Daten Google sammelt und verwendet, welche Websites Google für sensible Themen wie Wahlen wirbt, wie Google mit kleinen Websites umgeht und andere Themen.“

Die Insidergeschichte des Suchalgorithmus von Google wurde enthüllt und 2.500 Seiten mit Dokumenten mit echten Namen wurden durchgesickert! Such-Ranking-Lügen aufgedecktVieles Informationen zeigen, dass Google seit vielen Jahren nicht mehr ganz wahrheitsgetreu berichtet hat: „Einige Informationen in dem Dokument scheinen im Widerspruch zu öffentlichen Aussagen von Google-Vertretern zu stehen.“ dieses explosive Leck.

Der wahre Besitzer äußerte sich nicht, stattdessen tauchte eine mysteriöse Person auf, die zuvor anonym Auskunft gegeben hatte. Am 28. Mai beschloss der mysteriöse Mann schließlich, sich zu melden und veröffentlichte ein Video, in dem er seine Identität preisgab.

Sein Name ist Erfan Azimi, er ist außerdem SEO-Praktiker und Gründer von EA Eagle Digital.

Da das von Erfan Azimi bereitgestellte Dokument aus Googles internem „Content API Warehouse“ stammt, müssen wir verstehen, was Google API Content Warehouse ist und welche Inhalte dieses Dokument preisgibt.

Google-Suche nach „Black Box“

Die Insidergeschichte des Suchalgorithmus von Google wurde enthüllt und 2.500 Seiten mit Dokumenten mit echten Namen wurden durchgesickert! Such-Ranking-Lügen aufgedeckt

Dieses Leck scheint von GitHub zu stammen, und die glaubwürdigste Erklärung stimmt mit dem überein, was Erfan Azimi Rand während des Anrufs sagte:

Diese Dokumente könnten wurden versehentlich kurzzeitig veröffentlicht, da viele der Links im Dokument zu privaten GitHub-Repositories sowie zu internen Seiten auf der Unternehmenswebsite von Google führen, für die bestimmte Authentifizierungsanmeldungen erforderlich sind.

Während des möglicherweise zufälligen öffentlichen Zeitraums von März bis Mai 2024 wurde die API-Dokumentation an Hexdocs (das indizierte öffentliche GitHub-Repository) verteilt, wo sie von anderen entdeckt und verbreitet wurde.

Was Rand verwundert, ist, dass er davon überzeugt ist, dass auch andere eine Kopie haben, aber bis zu dieser Enthüllung wurde dieses Dokument nicht öffentlich diskutiert.

Laut einem ehemaligen Google-Entwickler verfügt fast jedes Google-Team über ein solches Dokument, in dem verschiedene API-Eigenschaften und -Module erläutert werden, damit sich Projektmitarbeiter mit den verfügbaren Datenelementen vertraut machen können.

Diese durchgesickerten Informationen stimmen mit anderen Informationen im öffentlichen GitHub-Repository und in der Google Cloud API-Dokumentation überein und verwenden denselben Notationsstil, dasselbe Format und sogar Prozess-/Modul-/Funktionsnamen und Referenzen.

„API Content Warehouse“ klingt wie ein technischer Begriff, aber wir können ihn als Leitfaden für Mitglieder des Google-Suchmaschinenteams betrachten.

Es ist wie ein Buchkatalog in einer Bibliothek. Google nutzt ihn, um den Mitarbeitern mitzuteilen, welche Bücher verfügbar sind und wie sie sie bekommen können.

Aber der Unterschied besteht darin, dass Bibliotheken öffentlich sind, während die Google-Suche eine der mysteriösesten und am besten bewachten Black Boxes der Welt ist. In mehr als zwei Jahrzehnten gab es noch nie ein Leck dieses Ausmaßes oder dieser Details aus der Suchabteilung von Google.

Was wurde „durchgesickert“?

1. Verwendung von Benutzerklickdaten

Die Insidergeschichte des Suchalgorithmus von Google wurde enthüllt und 2.500 Seiten mit Dokumenten mit echten Namen wurden durchgesickert! Such-Ranking-Lügen aufgedeckt

Einige Module im Dokument erwähnen „goodClicks“, „badClicks“, „lastLongestClicks“, Impressions, Squashed, Unsquashed und Unicorn Clicks und andere Funktionen. Diese beziehen sich alle auf Navboost und Glue, und diejenigen, die die Aussage des Google-Justizministeriums gelesen haben, sind möglicherweise mit diesen beiden Begriffen vertraut.

Hier sind relevante Auszüge aus dem Kreuzverhör des Anwalts des Justizministeriums, Kenneth Dintzer, mit Pandu Nayak, Vizepräsident für Suche im Search Quality Team:

F. Erinnern Sie mich nur daran, stammt Navboost aus dem Jahr 2005?

A. In diesem Bereich, vielleicht sogar früher.

F. Es wurde aktualisiert. Ist es nicht mehr der Navboost, der er einmal war?

A. Nicht mehr

F Der andere ist Kleber, oder?

A. Kleber ist nur ein anderer Name für Navboost, einschließlich aller anderen Funktionen auf der Seite.

F. Ich wollte später darüber reden, aber wir können jetzt darüber reden. Wie wir besprochen haben, kann Navboost Web-Ergebnisse generieren, oder?

A.

F. Glue kann auch alle Inhalte auf der Seite verarbeiten, die kein Webergebnis sind, oder?

A Das stimmt.

F: Gemeinsam helfen sie dabei, Inhalte zu finden und einzustufen, die letztendlich auf unseren Suchergebnisseiten erscheinen?

A Das stimmt. Das sind alles Signale dafür, ja.

Dieses durchgesickerte API-Dokument unterstützt die Aussage von Herrn Nayak und steht im Einklang mit den Website-Qualitätspatenten von Google.

Google scheint eine Möglichkeit zu haben, die Klicks herauszufiltern, die nicht in das Ranking-System gezählt werden sollen, und die Klicks einzuschließen, die in das Ranking-System gezählt werden sollen.

Sie scheinen auch Pogo-Sticking (wenn ein Suchender auf ein Ergebnis klickt und dann schnell auf die Schaltfläche „Zurück“ klickt, weil er mit der gefundenen Antwort nicht zufrieden ist) und Impressionen zu messen.

2. Commandoing Chrome’s Clickstream

Google-Vertreter haben mehrfach erklärt, dass sie keine Chrome-Daten zum Ranking von Seiten verwenden, aber das durchgesickerte Dokument erwähnt dies ausdrücklich in einem Abschnitt über die Darstellung von Websites in Chrome.

Die anonyme Quelle, die das Dokument durchsickerte, sagte, dass Google bereits 2005 den vollständigen Klickstrom von Milliarden Internetnutzern erhalten wollte, und dass sie mit dem Chrome-Browser erreicht haben, was sie wollten. Die

API-Dokumentation zeigt, dass Google Chrome verwenden kann, um mehrere Kategorien von Metriken zu berechnen, die sich auf einzelne Seiten und ganze Domains beziehen.

Dieses Dokument stellt vor, wie Google Sitelinks-bezogene Funktionen erstellt, was besonders interessant ist.

Es wird ein Aufruf namens topUrl angezeigt, d. h. „Eine Liste der Top-URLs mit dem höchsten two_level_score, d. h. chrome_trans_clicks.“

Daraus lässt sich ableiten, dass Google die Webseite wahrscheinlich im Chrome-Browser verwendet Anzahl der Klicks, ermitteln Sie daraus die beliebtesten oder wichtigsten URLs auf der Website und berechnen Sie anschließend, welche URLs in die Sitelinks-Funktion einbezogen werden sollten.

In den Google-Suchergebnissen werden immer die Seiten angezeigt, die Nutzer am häufigsten besuchen, indem der Clickstream von Milliarden Chrome-Nutzern verfolgt wird.

Natürlich sind Internetnutzer mit diesem Verhalten von Google unzufrieden.

Die Insidergeschichte des Suchalgorithmus von Google wurde enthüllt und 2.500 Seiten mit Dokumenten mit echten Namen wurden durchgesickert! Such-Ranking-Lügen aufgedeckt

3. Erstellen Sie eine Whitelist für ernste Themen

Es ist für uns nicht schwierig, über das Modul „Qualitätsreise-Website“ einen solchen Rückschluss zu ziehen – Google hat zwar eine Whitelist im Reisebereich, obwohl es Es ist noch nicht klar, ob es sich speziell um die Suchoption „Reisen“ von Google handelt oder um eine umfassendere Websuche.

Darüber hinaus weisen die mehrfachen Erwähnungen von „isCovidLocalAuthority“ (neue lokale Behörde der Krone) und „isElectionAuthority“ (Wahlbehörde) im Dokument darauf hin, dass Google bestimmte Domain-Namen auf die Whitelist setzt und diese Domain-Namen möglicherweise in der Nutzersuche auftauchen Kontroverse Themen werden zuerst angezeigt.

Nach der US-Präsidentschaftswahl 2020 behauptete beispielsweise ein bestimmter Kandidat ohne Beweise, dass Stimmen gestohlen worden seien, und ermutigte seine Anhänger, das Kapitol zu stürmen.

Google wird mit ziemlicher Sicherheit einer der ersten Orte sein, an denen Menschen nach Informationen über dieses Ereignis suchen, und wenn ihre Suchmaschine Propagandaseiten zurückgibt, die Wahlbeweise falsch beschreiben, könnte dies direkt zu mehr Kontroversen, Gewalt oder sogar zum Ende führen Amerikanische Demokratie.

Aus dieser Perspektive hat die Whitelist ihre praktische Bedeutung. Rand Fishkin sagte: „Diejenigen von uns, die die Fortsetzung freier und fairer Wahlen wünschen, sollten den Google-Ingenieuren sehr dankbar sein, dass sie in dieser Situation Whitelists verwenden. Google verfügt seit langem über eine Qualitätsbewertungsplattform namens EWOK, und wir haben jetzt Beweise dafür, dass einige Elemente aus dem Qualitätsbewerter werden im Suchsystem verwendet.

Rand Fishkin findet es interessant, dass die von EWOK-Qualitätsbewertern generierten Bewertungen und Daten direkt in das Suchsystem von Google einfließen können und nicht nur ein Trainingssatz für Experimente sind. 🔜

Die Insidergeschichte des Suchalgorithmus von Google wurde enthüllt und 2.500 Seiten mit Dokumenten mit echten Namen wurden durchgesickert! Such-Ranking-Lügen aufgedeckt

Die darin erwähnte „Relevanzbewertung jedes Dokuments“ stammt aus der Bewertung von EWOK. Obwohl es keine detaillierte Erklärung gibt, ist es nicht schwer, sich vorzustellen, wie wichtig die menschliche Bewertung der Website ist.

In der Dokumentation werden auch „menschliche Bewertungen“ (wie die von EWOK) erwähnt und darauf hingewiesen, dass diese „normalerweise nur in der Evaluierungspipeline enthalten sind“, was darauf hindeutet, dass es sich möglicherweise in erster Linie um Trainingsdaten in diesem Modul handelt.

Aber Rand Fishkin glaubt, dass dies immer noch eine sehr wichtige Rolle ist und Vermarkter nicht ignorieren sollten, wie wichtig Qualitätsbewerter für eine gute Wahrnehmung und Bewertung ihrer Website sind.

5. Klickdaten verwenden, um Gewicht zu bestimmen

Die Insidergeschichte des Suchalgorithmus von Google wurde enthüllt und 2.500 Seiten mit Dokumenten mit echten Namen wurden durchgesickert! Such-Ranking-Lügen aufgedeckt

Google unterteilt den Linkindex in drei Ebenen (niedrige, mittlere, hohe Qualität) und Klickdaten werden verwendet, um zu bestimmen, zu welcher Ebene die Website gehört.

- Wenn die Website keine Klicks erhält, wird sie in den Index mit niedriger Qualität aufgenommen und der Link wird ignoriert.

- Wenn die Website viele Klicks von überprüfbaren Geräten erhält, wird sie in den Index mit hoher Qualität aufgenommen und der Link leitet Ranking-Signale weiter

Sobald ein Link zu einem „vertrauenswürdigen“ Link wird, weil er zu einem Index höherer Ebene gehört, kann er PageRank und Anker übertragen oder von Spam-Link-Systemen gefiltert/entfernt werden.

Links aus minderwertigen Linkindizes beeinträchtigen das Ranking Ihrer Website nicht, sie werden einfach ignoriert.

Der Suchalgorithmus von Google ist wahrscheinlich das wichtigste System im Internet und entscheidet über Leben und Tod verschiedener Websites und darüber, was wir online sehen.

Aber wie Websites genau eingestuft werden, ist seit langem ein Rätsel, und Journalisten, Forscher und Leute, die im SEO-Bereich arbeiten, sind ständig damit beschäftigt, die Antwort auf dieses Rätsel zu finden.

Google schweigt zu diesem Leak und scheint das Rätsel damit aufrechtzuerhalten.

Aber dieses Mal, das schlimmste Leck von Google aller Zeiten, öffnete es einen Spalt und vermittelte den Menschen ein beispielloses Verständnis dafür, wie die Suche funktioniert.

Das obige ist der detaillierte Inhalt vonDie Insidergeschichte des Suchalgorithmus von Google wurde enthüllt und 2.500 Seiten mit Dokumenten mit echten Namen wurden durchgesickert! Such-Ranking-Lügen aufgedeckt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn