>일반적인 문제 >페이지 순위 알고리즘

페이지 순위 알고리즘

(*-*)浩
(*-*)浩원래의
2019-06-05 17:21:283082검색

PageRank, 즉 웹페이지 순위, 페이지 수준, Google 왼쪽 순위 또는 페이지 순위라고도 합니다.

페이지 순위 알고리즘

는 Google 창업자인 Larry Page와 Sergey Brin이 1997년 초기 검색 시스템 프로토타입을 구축할 때 제안한 링크 분석 알고리즘입니다. Google이 전례 없는 상업적 성공을 거둔 이후 이 알고리즘은 큰 관심을 끄는 컴퓨팅 모델이 되기도 했습니다. 다른 검색 엔진 및 학계에. 많은 중요한 링크 분석 알고리즘은 PageRank 알고리즘에서 파생됩니다. PageRank는 Google이 웹페이지의 수준/중요도를 식별하는 데 사용하는 방법으로, Google이 사이트 품질을 측정하는 데 사용하는 유일한 기준입니다.

(추천 학습: PHP 비디오 튜토리얼)

제목 로고 및 키워드 로고와 같은 다른 모든 요소를 ​​결합한 후 Google은 PageRank를 통해 결과를 조정하여 "순위/중요도"가 더 높은 웹 페이지가 더 높은 순위를 차지하도록 합니다. 검색 결과에서 다른 사이트의 순위가 향상되어 검색 결과의 관련성과 품질이 향상됩니다. 레벨은 0부터 10까지이며 레벨 10이 만점입니다. PR 값이 높을수록 페이지의 인기(중요도)가 높아집니다. 예를 들어, PR 값이 1인 사이트는 해당 사이트가 그다지 인기가 없다는 것을 나타내고, PR 값이 7~10인 경우 해당 사이트가 매우 인기가 있음(또는 매우 중요함)을 나타냅니다. 일반적으로 PR값이 4에 도달하면 좋은 사이트로 간주됩니다. 구글은 자사 사이트의 PR 값을 10으로 설정하는데, 이는 구글 사이트가 매우 인기가 있다는 것을 의미하며, 이 사이트가 매우 중요하다는 뜻이기도 합니다.

PageRank가 제안되기 전에 일부 연구자들은 이미 웹 페이지로 들어오는 링크 수를 사용하여 링크 분석 및 계산을 수행하도록 제안했습니다. 이 연결 방법을 사용하면 웹 페이지에 들어오는 링크가 많을수록 웹 페이지가 더 중요해집니다. . 많은 초기 검색 엔진 역시 링크 분석 방법으로 들어오는 링크 수를 채택했는데, 이는 검색 엔진 성능 향상에도 큰 영향을 미쳤습니다. 들어오는 링크 수의 영향을 고려하는 것 외에도 PageRank는 웹 페이지 품질 요소를 참조하며 이 두 요소의 조합은 웹 페이지 중요성에 대한 더 나은 평가 표준을 제공합니다.
인터넷 웹페이지 A의 경우 웹페이지의 PageRank 계산은 다음 두 가지 기본 if를 기반으로 합니다.
수량: 웹 그래프 모델에서 페이지 노드가 다른 웹페이지가 가리키는 더 많은 수신 링크를 받으면 이 페이지가 더 중요해요.
품질: 페이지 A를 가리키는 수신 링크의 품질이 다르며 고품질 페이지는 링크를 통해 다른 페이지로 많은 가중치를 이전합니다. 따라서 페이지 A를 가리키는 고품질 페이지일수록 A 페이지가 더 중요해집니다.
위의 두 가지 if를 사용하여 PageRank 알고리즘은 처음에 각 웹 페이지에 동일한 중요도 점수를 부여하고 점수가 안정될 때까지 반복 재귀 계산을 통해 각 페이지 노드의 PageRank 점수를 업데이트합니다. PageRank가 계산한 결과는 웹페이지의 중요도 평가로, 사용자가 입력한 쿼리와는 아무런 관련이 없습니다. 즉, 알고리즘은 주제 독립적입니다. 유사성 계산 기능이 콘텐츠 유사성 요소를 고려하지 않고 전적으로 PageRank를 사용하여 순위를 매기는 검색 엔진이 있다면 이 검색 엔진의 성능은 어떻게 될까요? 이 검색 엔진은 다른 쿼리 요청에 대해 동일한 결과를 반환합니다. 즉, PageRank 값이 가장 높은 페이지를 반환합니다.

PageRank 알고리즘 원리

PageRank 계산에서는 수량 if와 품질 if라는 두 가지 if를 최대한 활용합니다.

과정은 다음과 같습니다.

초기 단계에서는 웹 페이지가 링크 관계를 통해 웹 그래프를 구축하고 각 페이지에 대해 동일한 PageRank 값을 설정합니다. 여러 차례 계산을 거쳐 최종 PageRank 값을 얻습니다. 각 페이지를 얻게 됩니다. 각 계산 라운드가 진행됨에 따라 웹 페이지의 현재 PageRank 값이 지속적으로 업데이트됩니다.

한 라운드의 업데이트된 페이지에 대한 PageRank 점수 계산 방법: 한 라운드의 업데이트된 페이지에 대한 PageRank 점수 계산에서 각 페이지는 현재 PageRank 값을 이 페이지에 포함된 나가는 링크에 균등하게 분배하므로 각 링크는 해당 가중치가 얻어집니다. 그리고 각 페이지는 새로운 PageRank 점수를 얻기 위해 이 페이지를 가리키는 모든 수신 링크에서 전달된 가중치를 합산합니다. 각 페이지가 업데이트된 PageRank 값을 얻으면 PageRank 계산 라운드가 완료됩니다.

기본 아이디어:

웹 페이지 T에 웹 페이지 A에 대한 링크가 있다고 가정하면 T의 소유자가 A를 더 중요하게 생각하므로 T의 중요도 점수 중 일부가 A에 할당됩니다. 이 중요도 점수 값은 다음과 같습니다. PR(T)/L(T)

여기서 PR(T)는 T의 PageRank 값이고, L(T)는 T의 나가는 링크 수이며 A의 PageRank 값은 다음과 같습니다. 일련의 유사한 T에 대한 페이지 중요도 점수의 축적입니다.

즉, 페이지가 얻는 투표 수는 페이지에 연결된 모든 페이지의 중요성에 따라 결정됩니다. 페이지에 대한 하이퍼링크는 페이지에 대한 투표와 동일합니다. 페이지의 PageRank는 해당 페이지에 링크된 모든 페이지(링크된 페이지)의 중요도를 기반으로 하는 재귀 알고리즘을 통해 획득됩니다. 링크가 많은 페이지는 순위가 높지만 링크가 전혀 없는 페이지는 순위가 없습니다.

PHP 관련 기술 기사를 더 보려면 PHP 그래픽 튜토리얼 칼럼을 방문하여 알아보세요!

위 내용은 페이지 순위 알고리즘의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
이전 기사:fscanf 함수 사용법다음 기사:fscanf 함수 사용법

관련 기사

더보기