Maison >Périphériques technologiques >IA >L'histoire intérieure de l'algorithme de recherche de Google a été révélée et 2 500 pages de documents avec de vrais noms ont été divulgués ! Les mensonges du classement de recherche dévoilés

L'histoire intérieure de l'algorithme de recherche de Google a été révélée et 2 500 pages de documents avec de vrais noms ont été divulgués ! Les mensonges du classement de recherche dévoilés

PHPzoriginal: 2024-06-11 09:14:231111parcourir

Récemment, 2 500 pages de documents internes de Google ont été divulguées, révélant le fonctionnement de la recherche, « l'arbitre le plus puissant d'Internet ».

Le co-fondateur et PDG de SparkToro est une personne anonyme. Il a publié un article de blog sur son site Web personnel, affirmant qu'« une personne anonyme a partagé avec moi des milliers de pages de documentation divulguée sur l'API de recherche Google, et tout le monde dans le référencement. Tout le monde devrait les voir!"

Lhistoire intérieure de lalgorithme de recherche de Google a été révélée et 2 500 pages de documents avec de vrais noms ont été divulgués ! Les mensonges du classement de recherche dévoilés

Depuis de nombreuses années, Rand Fishkin est le principal porte-parole dans le domaine du SEO (Search Engine Optimization, optimisation des moteurs de recherche). Le concept de "Website Authority" (Domain Rating) est sa proposition.

Comme il est très respecté dans ce domaine, Rand Fishkin a naturellement dû vérifier soigneusement cette personne anonyme et inconnue avant d'annoncer la nouvelle.

Vendredi dernier, après avoir envoyé plusieurs e-mails, Rand Fishkin a eu un appel vidéo avec l'homme mystérieux. Bien sûr, l'autre partie n'a pas montré son visage.

Cet appel a permis à Rand d'en apprendre davantage sur le document divulgué : il s'agit d'un document API de plus de 2 500 pages, contenant 14 014 propriétés. Ces propriétés sont similaires à la partie interne de Google « Content API Warehouse ».

Selon l'historique des validations du document, le code a été téléchargé sur GitHub le 27 mars 2024 et n'a été supprimé que le 7 mai 2024.

Après l'appel, Rand a confirmé les antécédents professionnels de la personne anonyme et ses connaissances communes dans le monde du marketing. Il a décidé de répondre aux attentes d'Anonymous en publiant un article pour partager la fuite et réfuter "certains des mensonges que les employés de Google propagent depuis des années".

Matt Cutts, Gary Ilyes et John Mueller nient que Google utilise les données des utilisateurs basées sur les clics pour les classements depuis des années

L'article de Rand parle de sandboxing, de taux de clics, de temps d'attente, etc. qui affectent les facteurs de référencement, ce que Google a vigoureusement nié auparavant.

Dès sa publication, l'article a immédiatement provoqué un tollé dans l'opinion publique, notamment dans le milieu du SEO.

Un autre expert SEO, Mike King, a également publié un article révélant les "secrets de l'algorithme de Google".

Mike King a déclaré : "Les documents divulgués concernent les données que Google collecte et utilise, les sites Web dont Google fait la promotion sur des sujets sensibles tels que les élections, la manière dont Google gère les petits sites Web et d'autres sujets." Les informations montrent que Google n'a pas rapporté de manière totalement véridique depuis de nombreuses années, "Certaines informations contenues dans le document semblent être en conflit avec les déclarations publiques des représentants de Google.

Face aux doutes de tous, Google a choisi de garder le silence et a refusé de commenter." cette fuite explosive.

Le véritable propriétaire n'a pas parlé. Au lieu de cela, une personne mystérieuse qui avait précédemment fourni des informations de manière anonyme s'est présentée. Le 28 mai dernier, l'homme mystérieux a finalement décidé de se manifester et a diffusé une vidéo dans laquelle il révélait son identité.

Son nom est Erfan Azimi, il est également praticien SEO et fondateur d'EA Eagle Digital.

Donc, puisque le document fourni par Erfan Azimi provient du « Content API Warehouse » interne de Google, nous devons comprendre ce qu'est Google API Content Warehouse, et qu'est-ce que ce document fuit exactement ?

Recherche Google pour "boîte noire"

Cette fuite semble provenir de GitHub, et l'explication la plus crédible est cohérente avec ce qu'Erfan Azimi a dit à Rand lors de l'appel :

Ces documents peuvent ont été rendus publics par inadvertance, car de nombreux liens contenus dans le document mènent à des référentiels GitHub privés, ainsi qu'à des pages internes du site Web d'entreprise de Google qui nécessitent des connexions d'authentification spécifiques.

Pendant la période publique éventuellement accidentelle de mars à mai 2024, la documentation de l'API a été diffusée sur Hexdocs (le référentiel GitHub public indexé), où elle a été découverte et diffusée par d'autres.

Ce qui laisse perplexe Rand, c'est qu'il est convaincu que d'autres en ont également une copie, mais jusqu'à cette révélation, ce document n'a pas été discuté publiquement.

Selon un ancien développeur de Google, presque toutes les équipes de Google disposent d'un tel document pour expliquer diverses propriétés et modules de l'API afin d'aider le personnel du projet à se familiariser avec les éléments de données disponibles.

Ces informations divulguées correspondent à d'autres informations dans le référentiel public GitHub et dans la documentation de l'API Google Cloud, en utilisant le même style de notation, le même format et même les mêmes noms et références de processus/module/fonction.

"API Content Warehouse" semble être un terme technique, mais nous pouvons le considérer comme un guide pour les membres de l'équipe du moteur de recherche Google.

C'est comme un catalogue de livres dans une bibliothèque, Google l'utilise pour indiquer aux employés quels livres sont disponibles et comment les obtenir.

Mais la différence est que les bibliothèques sont publiques, tandis que la recherche Google est l'une des boîtes noires les plus mystérieuses et les mieux gardées au monde. En plus de deux décennies, il n'y a jamais eu de fuite d'une telle ampleur ou d'un tel détail de la part de la division de recherche de Google.

Qu'est-ce qui a "fuité" ?

1. Utilisation des données de clics des utilisateurs

Certains modules du document mentionnent les clics "goodClicks", "badClicks", "lastLongestClicks", les impressions, les clics écrasés, non écrasés et licornes et d'autres fonctions. Tout cela est lié à Navboost et Glue, et ceux qui ont lu le témoignage du ministère de la Justice de Google connaissent peut-être ces deux termes.

Voici des extraits pertinents du contre-interrogatoire de Pandu Nayak, vice-président de la recherche de l'équipe de qualité de recherche, mené par l'avocat du ministère de la Justice, Kenneth Dintzer :

Q Alors, juste pour me rappeler, Navboost remonte-t-il à 2005 ?

A Dans cette fourchette, peut-être même plus tôt.

Q. Il a été mis à jour, n'est-il plus le Navboost qu'il était ?

A. Plus rien

Q Il y en a une autre qui s'appelle la colle, n'est-ce pas ?

A. Glue n'est qu'un autre nom pour Navboost, incluant toutes les autres fonctionnalités de la page.

Q. D'accord. J'allais en parler plus tard, mais nous pouvons en parler maintenant. Comme nous en avons discuté, Navboost peut générer des résultats Web, n'est-ce pas ?

Oui.

Q. Glue peut également gérer tout le contenu de la page qui n'est pas un résultat Web, n'est-ce pas ?

A. C'est vrai.

Q. Ensemble, ils aident à trouver et à classer le contenu qui apparaît finalement sur nos pages de résultats de recherche ?

A. C'est vrai. Ce sont tous des signaux de cela, oui.

Ce document API divulgué soutient le témoignage de M. Nayak et est conforme aux brevets de qualité des sites Web de Google.

Il semble que Google ait un moyen de filtrer les clics qu'ils ne souhaitent pas être comptabilisés dans le système de classement et d'inclure les clics qu'ils souhaitent inclure dans le système de classement.

Ils semblent également mesurer le pogo-sticking (lorsqu'un chercheur clique sur un résultat puis clique rapidement sur le bouton de retour parce qu'il n'est pas satisfait de la réponse qu'il a trouvée) et les impressions.

2. Commandoing Chrome's Clickstream

Les représentants de Google ont déclaré à plusieurs reprises qu'ils n'utilisaient pas les données Chrome pour classer les pages, mais le document divulgué le mentionne spécifiquement dans une section sur la façon dont les sites apparaissent dans les recherches Chrome.

La source anonyme qui a divulgué le document a déclaré que dès 2005, Google voulait obtenir le flux de clics complet de milliards d'utilisateurs Internet, et grâce au navigateur Chrome, ils ont obtenu ce qu'ils voulaient.

La documentation de l'API montre que Google peut utiliser Chrome pour calculer plusieurs catégories de métriques liées à des pages individuelles et à des domaines entiers.

Ce document présente comment Google crée des fonctions liées aux liens annexes, ce qui est particulièrement intéressant.

Il affiche un appel appelé topUrl, c'est-à-dire "Une liste des principales URL avec le score à deux niveaux le plus élevé, c'est-à-dire chrome_trans_clicks."

On peut en déduire que Google est susceptible d'utiliser la page Web dans le navigateur Chrome. nombre de clics, et utilisez-le pour déterminer les URL les plus populaires ou les plus importantes sur le site Web, puis calculez quelles URL doivent être incluses dans la fonctionnalité Liens annexes.

Dans les résultats de recherche Google, il affiche toujours les pages que les utilisateurs visitent le plus, ce qu'il fait en suivant le parcours de clics de milliards d'utilisateurs de Chrome.

Bien sûr, les internautes ne sont pas satisfaits de ce comportement de Google.

3. Créez une liste blanche pour les sujets sérieux

Il n'est pas difficile pour nous de tirer une telle conclusion via le module "Quality Travel Website" - Google a une liste blanche dans le domaine des voyages, même si elle n'est pas encore clair, qu'il s'agisse spécifiquement de l'option de recherche « voyage » de Google ou d'une recherche plus large sur le Web.

De plus, les multiples mentions de « isCovidLocalAuthority » (nouvelle autorité locale de la couronne) et « isElectionAuthority » (autorité électorale) dans le document indiquent en outre que Google met sur liste blanche des noms de domaine spécifiques, et ces noms de domaine peuvent apparaître dans la recherche des utilisateurs. Les résultats controversés sont affichés en premier.

Par exemple, après l'élection présidentielle américaine de 2020, un certain candidat a affirmé sans preuve que des votes avaient été volés et a encouragé ses partisans à prendre d'assaut le Capitole.

Google sera presque certainement l'un des premiers endroits où les gens rechercheront des informations sur cet événement, et si leur moteur de recherche renvoie des sites de propagande décrivant de manière inexacte les preuves électorales, cela pourrait conduire directement à davantage de controverses, de violences, voire à la fin de Démocratie américaine.

De ce point de vue, la liste blanche a sa signification pratique. Rand Fishkin a déclaré : « Ceux d'entre nous qui souhaitent la poursuite d'élections libres et équitables devraient être très reconnaissants envers les ingénieurs de Google pour avoir utilisé des listes blanches dans cette situation. Google dispose depuis longtemps d'une plateforme d'évaluation de la qualité appelée EWOK, et nous avons maintenant la preuve que certains d'entre eux ont recours à des listes blanches. les éléments de l'évaluateur de qualité sont utilisés dans le système de recherche.

Rand Fishkin trouve intéressant que les scores et les données générés par les évaluateurs de qualité EWOK puissent directement participer au système de recherche de Google, plutôt que d'être simplement un ensemble de formation pour des expériences.

Bien sûr, cela peut être "juste à titre de test", mais en parcourant la documentation divulguée, vous verrez que lorsque cela est vrai, cela est clairement indiqué dans les commentaires et les détails du module.

La « note de pertinence de chaque document » qui y est mentionnée provient de l'évaluation d'EWOK. Bien qu'il n'y ait pas d'explication détaillée, il n'est pas difficile d'imaginer l'importance de l'évaluation humaine du site Web.

La documentation mentionne également des « évaluations humaines » (telles que celles d'EWOK), notant qu'elles sont « généralement renseignées uniquement dans le pipeline d'évaluation », suggérant qu'il peut s'agir principalement de données de formation dans ce module.

Mais Rand Fishkin estime qu'il s'agit toujours d'un rôle très important, et les spécialistes du marketing ne devraient pas ignorer l'importance des évaluateurs de qualité pour une bonne perception et une bonne évaluation de leur site Web.

5. Utilisez les données de clic pour déterminer le poids

Google divise l'index des liens en trois niveaux (qualité faible, moyenne, élevée) et les données de clic sont utilisées pour déterminer à quel niveau appartient le site Web.

- Si le site n'obtient pas de clics, il entre dans l'index de mauvaise qualité et le lien est ignoré

- Si le site obtient beaucoup de clics provenant d'appareils vérifiables, il entre dans l'index de haute qualité et le lien passe les signaux de classement

Une fois qu'un lien devient un lien « de confiance » car il appartient à un index de niveau supérieur, il peut diffuser le PageRank et les ancres, ou être filtré/supprimé par des systèmes de liens spammés.

Les liens provenant d'index de liens de mauvaise qualité ne nuiront pas au classement de votre site, ils seront simplement ignorés.

L'algorithme de recherche de Google est probablement le système le plus important sur Internet, déterminant la vie et la mort de différents sites Web et ce que nous voyons en ligne.

Mais la manière exacte dont il classe les sites Web est depuis longtemps un mystère, et les journalistes, les chercheurs et les personnes travaillant dans le domaine du référencement sont constamment en train de reconstituer la réponse à ce casse-tête.

Google reste silencieux sur cette fuite, perpétuant apparemment le mystère.

Mais cette fois, la pire fuite jamais enregistrée par Google, elle a ouvert une fissure et a donné aux gens une compréhension sans précédent du fonctionnement de la recherche.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

chrome 事件 github 算法搜索引擎 SEO

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：L’IA prédit les conditions météorologiques extrêmes 5 000 fois plus vite ! Microsoft lance Aurora pour prédire les tempêtes mondiales avec les yeux de l'IAArticle suivant：L’IA prédit les conditions météorologiques extrêmes 5 000 fois plus vite ! Microsoft lance Aurora pour prédire les tempêtes mondiales avec les yeux de l'IA

Articles Liés

Voir plus