pagerank算法-常见问题-PHP中文网

首页

常见问题

pagerank算法

(*-*)浩

Jun 05, 2019 pm 05:21 PM

PageRank,即网页排名，又称网页级别、Google左側排名或佩奇排名。

pagerank算法

是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法，自从Google在商业上获得空前的成功后，该算法也成为其他搜索引擎和学术界十分关注的计算模型。眼下许多重要的链接分析算法都是在PageRank算法基础上衍生出来的。PageRank是Google用于用来标识网页的等级/重要性的一种方法，是Google用来衡量一个站点的好坏的唯一标准。

（推荐学习：PHP视频教程）

在揉合了诸如Title标识和Keywords标识等全部其他因素之后，Google通过PageRank来调整结果，使那些更具“等级/重要性”的网页在搜索结果中另站点排名获得提升，从而提高搜索结果的相关性和质量。其级别从0到10级，10级为满分。PR值越高说明该网页越受欢迎（越重要）。比如：一个PR值为1的站点表明这个站点不太具有流行度，而PR值为7到10则表明这个站点很受欢迎（或者说极其重要）。一般PR值达到4，就算是一个不错的站点了。Google把自己的站点的PR值定到10，这说明Google这个站点是很受欢迎的，也能够说这个站点很重要。

在PageRank提出之前，已经有研究者提出利用网页的入链数量来进行链接分析计算，这样的入链方法如果一个网页的入链越多，则该网页越重要。早期的非常多搜索引擎也採纳了入链数量作为链接分析方法，对于搜索引擎效果提升也有较明显的效果。 PageRank除了考虑到入链数量的影响，还參考了网页质量因素，两者相结合获得了更好的网页重要性评价标准。
对于某个互联网网页A来说，该网页PageRank的计算基于下面两个基本如果：
数量如果：在Web图模型中，如果一个页面节点接收到的其它网页指向的入链数量越多，那么这个页面越重要。
质量如果：指向页面A的入链质量不同，质量高的页面会通过链接向其它页面传递很多其它的权重。所以越是质量高的页面指向页面A，则页面A越重要。
利用以上两个如果，PageRank算法刚開始赋予每一个网页同样的重要性得分，通过迭代递归计算来更新每一个页面节点的PageRank得分，直到得分稳定为止。 PageRank计算得出的结果是网页的重要性评价，这和用户输入的查询是没有不论什么关系的，即算法是主题无关的。如果有一个搜索引擎，其相似度计算函数不考虑内容相似因素，全然採用PageRank来进行排序，那么这个搜索引擎的表现是什么样子的呢？这个搜索引擎对于随意不同的查询请求，返回的结果都是同样的，即返回PageRank值最高的页面。

PageRank算法原理

PageRank的计算充分利用了两个如果：数量如果和质量如果。

过程例如以下：

在初始阶段：网页通过链接关系构建起Web图，每一个页面设置同样的PageRank值，通过若干轮的计算，会得到每一个页面所获得的终于PageRank值。随着每一轮的计算进行，网页当前的PageRank值会不断得到更新。

在一轮中更新页面PageRank得分的计算方法：在一轮更新页面PageRank得分的计算中，每一个页面将其当前的PageRank值平均分配到本页面包括的出链上，这样每一个链接即获得了对应的权值。而每一个页面将全部指向本页面的入链所传入的权值求和，就可以得到新的PageRank得分。当每一个页面都获得了更新后的PageRank值，就完毕了一轮PageRank计算。

基本思想：

假设网页T存在一个指向网页A的连接，则表明T的全部者觉得A比較重要，从而把T的一部分重要性得分赋予A。这个重要性得分值为：PR（T）/L(T)

当中PR（T）为T的PageRank值，L(T)为T的出链数则A的PageRank值为一系列类似于T的页面重要性得分值的累加。

即一个页面的得票数由全部链向它的页面的重要性来决定，到一个页面的超链接相当于对该页投一票。一个页面的PageRank是由全部链向它的页面（链入页面）的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级，相反假设一个页面没有不论什么链入页面，那么它没有等级。

更多PHP相关技术文章，请访问PHP图文教程栏目进行学习！

以上是pagerank算法的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn