키워드: PageRank, 페이지랭크, Search Engine, 검색엔진, Link Analysis, 링크분석, Random Surfer Model, 랜덤서퍼모델
페이지랭크
페이지랭크(PageRank)는 스탠포드 대학교의 래리 페이지와 세르게이 브린 개발하여 학계에 발표한 후에, 구글(Google) 검색 엔진에 사용된 링크 분석 알고리즘이다. 검색된 문서는, 이 페이지랭크를 이용해 정렬되어 사용자에게 보여진다. 이는 웹에 있는 모든 객체에 연결된 하이퍼링크, 참조 빈도, 중요도를 분석하여 각 객체에 가중치를 부여하는 방식으로, 검색어의 출현 빈도에 따라 문서에 중요도를 부여하는 기존의 알고리즘들과 구분된다. 여기서 각 객체는 E라고 표기하고, 객체에 부여된 가중치는 ‘E의 페이지랭크’로 부르며, PR(E)로 표기한다. 페이지랭크는 보통 주기적으로 갱신되며, 저장되어있는 PR(E) 값이 사용자 쿼리 시간에 참조된다.
페이지랭크에서 링크를 분석하고 각 객체의 중요도를 평가하는 방법은 다른 객체에서의 참조를 기반으로 한다. 객체 B가 객체 A를 중요하다고 판단하고, 객체 A를 중요하다고 여기는 객체가 많을수록 전체 인터넷에서 객체 A의 중요도는 점점 커진다. 이 중요도는 객체간 하이퍼링크로 판단을 할 수 있다. 즉, 유입 링크(Incoming Link)가 많은 객체일수록 더 중요한 객체인 것이다.
알고리즘
페이지랭크는 사용자가 특정 웹 페이지에
있는 하이퍼링크를 임의로 클릭하여 이동한다고 가정한다. 이를 랜덤 서퍼 모델(Random Surfer Model)이라고 한다. 다른 페이지로 이동하면
이동하기 전의 객체의 페이지랭크를 이동하는 다른 페이지로 분배하게 된다. 모든 E에 대해, PR(E)의 합은 1 즉,
예를 들어, 객체 A, B, C가 있고, B, C는 A를 참조하고 있으며, B의 하이퍼링크 개수는 2개, C는 1개라고 하자. 그러면 A의 페이지랭크를 가장 단순히 다음과 같이 나타낼 수 있다.
이를 임의의 객체 u에 대해 일반화하면 다음과 같다.
Bu는 객체 u에 대한 유출 링크(Outgoing Link)가 있는 객체의 집합이며 L(v)는 객체 v의 모든 유출 링크 개수이다. 이 과정은 모든 객체에 대해 이루어져야 하며, 수렴치를 찾을 때까지 재귀적으로 반복되어야 한다. 최종적으로 위의 그림은 이동확률을 에지 값에, 페이지랭크를 버텍스 값으로 갖는 마코프 체인이 된다.
랜덤 서퍼 모델에서 사용자가 웹 페이지 검색을 멈추는 경우도 있다. 이를 위해 제동인자(Damping Factor)를 두고 아래와 같이 식을 확장한다. 제동인자의 적정 값은 약 0.85로 알려져 있다.
또한 링크를 타고 페이지를 이동하다 더 이상 유출 링크가
없는 페이지에 다다를 수도 있다. 이런 경우, 다른 어느
페이지로든 이동할 수 있는 것으로 간주하여 모든 유출 링크로의 확률을 동일하게 놓는다.
페이지랭크는 재귀적으로 반복하면서 값을 갱신해나가며, 수렴치로 다다른다. 이 과정을 간편히 하기 위해 아래와 같은 행렬식을 제안한다.
R(t)는 전체 페이지랭크의 벡터이다. l(pi,pj)는 pi에서 pj로
링크가 나갈 확률이며, 이는 단순히 1/(유출링크개수)일 수 있지만, 알고리즘이 고도화되면서 가중치를 부여해 계산할 수도
있다. 위와 같은 행렬식으로 재귀연산을 하여 최종적으로 구해진 페이지랭크 벡터를 검색 결과에서 순위를
매기는데 사용한다.
관련연구
l HITS(Hyperlink-Induced
Topic Search)
유입 링크의 가중치인 권위값(Authority Score)와 유출 랭크의 가중치인
허브값(Hub Score)를 이용해 문서의 중요도를 매긴다. 이는
미리 계산하는 것이 아니라 쿼리 시간에 계산되며, 일반 검색 엔진에는 사용되지 않고, 두 가지 다른 값을 이용한다는 특징이 있으며, 전체 웹 페이지가
아니라 일부에만 적용하여 사용한다. 고품질의
결과를 도출하지만 시간이 오래 걸린다는 단점이 있고, IBM의 웹 검색 프로젝트인 CLEVER에 사용되었다.
l TrustRank
스팸페이지를 구분하기 위해 스탠프도 대학교와 Yahoo에 의해 개발된 반자동 기법이다. 이는 전문가에 의해 수동으로 구분된 웹 페이지를 기초로, 그 웹페이지와
관련된 페이지에 신뢰도를 높게 쳐주는 방식이다. 반자동이라는 단점이 있지만, 실제로 스팸 페이지의 구분에 우수한 성능을 보였다.
참고자료
The PageRank Citation Ranking: Bringing Order to the Web
http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf
The Intelligent Surfer: Probabilistic Combination of Link and Content Information in PageRank
http://www.cs.washington.edu/homes/pedrod/papers/nips01b.pdf
Manipulability of PageRank under Sybil Strategies
http://www.cs.duke.edu/nicl/netecon06/papers/ne06-sybil.pdf
Our Search: Google Technology
http://www.google.com/corporate/tech.html