Maison  >  Article  >  algorithme de classement de page

algorithme de classement de page

(*-*)浩
(*-*)浩original
2019-06-05 17:21:283032parcourir

PageRank, qui est le classement des pages Web, également connu sous le nom de niveau de page, classement à gauche de Google ou classement des pages.

algorithme de classement de page

est un algorithme d'analyse de liens proposé par les fondateurs de Google Larry Page et Sergey Brin lors de la construction d'un premier prototype de système de recherche en 1997. Depuis Google Après avoir obtenu un succès commercial sans précédent, l'algorithme a est également devenu un modèle informatique très préoccupant pour les autres moteurs de recherche et les cercles universitaires. De nombreux algorithmes d’analyse de liens importants sont dérivés de l’algorithme PageRank. Le PageRank est une méthode utilisée par Google pour identifier le niveau/importance des pages web. C'est le seul critère utilisé par Google pour mesurer la qualité d'un site.

(Apprentissage recommandé : Tutoriel vidéo PHP)

Après avoir combiné tous les autres facteurs tels que la balise Titre et la balise Mots-clés, Google ajuste les résultats via le PageRank afin que les pages avec plus « rang/importance » améliorera le classement du site dans les résultats de recherche, améliorant ainsi la pertinence et la qualité des résultats de recherche. Ses niveaux vont de 0 à 10, le niveau 10 étant un score parfait. Plus la valeur PR est élevée, plus la page est populaire (plus importante). Par exemple : un site avec une valeur PR de 1 indique que le site n'est pas très populaire, tandis qu'une valeur PR de 7 à 10 indique que le site est très populaire (ou extrêmement important). Généralement, si la valeur PR atteint 4, il est considéré comme un bon site. Google fixe la valeur PR de son propre site à 10, ce qui montre que le site de Google est très populaire, et on peut aussi dire que ce site est très important.

Avant que le PageRank ne soit proposé, certains chercheurs avaient déjà proposé d'utiliser le nombre de liens entrants vers une page Web pour effectuer des calculs d'analyse de liens. Avec cette méthode de liaison, si une page Web contient plus de liens entrants, plus ceux-ci sont importants. la page Web est. De nombreux premiers moteurs de recherche ont également adopté le nombre de liens entrants comme méthode d’analyse des liens, ce qui a également eu un effet significatif sur l’amélioration des performances des moteurs de recherche. En plus de prendre en compte l'impact du nombre de liens entrants, le PageRank fait également référence aux facteurs de qualité des pages Web. La combinaison des deux offre une meilleure norme d'évaluation de l'importance des pages Web.
Pour une page web Internet A, le calcul du PageRank de la page web est basé sur les deux si de base suivants :
Quantité si : Dans le modèle de graphe Web, si un nœud de page reçoit le nombre de liens entrants pointés vers par d'autres pages Web Plus cette page est importante, plus elle est importante.
Qualité Si : La qualité des liens entrants pointant vers la page A est différente, et les pages de haute qualité transféreront de nombreux autres poids vers d'autres pages via des liens. Par conséquent, plus les pages de haute qualité pointent vers la page A, plus la page A est importante.
En utilisant les deux si ci-dessus, l'algorithme PageRank attribue initialement à chaque page Web le même score d'importance et met à jour le score PageRank de chaque nœud de page via un calcul récursif itératif jusqu'à ce que le score soit stable. Le résultat calculé par PageRank est l'évaluation de l'importance de la page Web, qui n'a rien à voir avec la requête saisie par l'utilisateur, c'est-à-dire que l'algorithme est indépendant du sujet. S'il existe un moteur de recherche dont la fonction de calcul de similarité ne prend pas en compte les facteurs de similarité du contenu et utilise entièrement le PageRank pour le classement, à quoi ressembleront les performances de ce moteur de recherche ? Ce moteur de recherche renvoie les mêmes résultats pour toutes les requêtes de requête différentes, c'est-à-dire qu'il renvoie la page avec la valeur PageRank la plus élevée.

Principe de l'algorithme PageRank

Le calcul du PageRank utilise pleinement deux si : la quantité si et la qualité si.

Le processus est le suivant :

Dans la phase initiale : la page Web construit un graphique Web via des relations de liens et définit la même valeur de PageRank pour chaque page. Après plusieurs séries de calculs, obtiendra la valeur finale du PageRank obtenue par chaque page. Au fur et à mesure de chaque cycle de calcul, la valeur PageRank actuelle de la page Web sera continuellement mise à jour.

Méthode de calcul du score PageRank pour les pages mises à jour en un seul tour : Dans le calcul du score PageRank pour les pages mises à jour en un tour, chaque page distribuera uniformément sa valeur PageRank actuelle aux liens sortants inclus dans cette page, donc que Chaque lien obtient un poids correspondant. Et chaque page résumera les pondérations transmises par tous les liens entrants pointant vers cette page pour obtenir un nouveau score PageRank. Lorsque chaque page obtient la valeur PageRank mise à jour, un cycle de calcul du PageRank est terminé.

Idée de base :

En supposant que la page Web T a un lien vers la page Web A, cela signifie que le propriétaire de T pense que A est plus important, alors attribuez une partie du score d'importance de T à A. Cette valeur de score d'importance est : PR(T)/L(T)

où PR(T) est la valeur PageRank de T, L(T) est le nombre de liens sortants de T, et La valeur PageRank de A est l'accumulation d'une série de valeurs de score d'importance de page similaires à T.

Autrement dit, le nombre de votes qu'une page obtient est déterminé par l'importance de toutes les pages qui y renvoient. Un lien hypertexte vers une page équivaut à un vote pour la page. Le PageRank d'une page est obtenu grâce à un algorithme récursif basé sur l'importance de toutes les pages qui y renvoient (pages liées). Une page avec plus de liens aura un classement plus élevé, tandis que si une page n'a aucun lien, elle n'aura aucun classement.

Pour plus d'articles techniques liés à PHP, veuillez visiter la colonne Tutoriel graphique PHP pour apprendre !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn