佩奇排名介紹
佩奇排名是根據(jù)頁面之間的鏈接結(jié)構計算頁面的值的一種算法。下面我們通過動畫來理解進行計算的具體流程。
假設一個正方形表示一個 WEB 頁面,一個箭頭表示一個頁面之間的鏈接。
此圖表明下面 3 頁包含指向上面 1 頁的鏈接
在佩奇排名算法中,網(wǎng)頁指向的鏈接越多,頁面被確定為越重要。
因此,在這里,確定首頁最重要。
確定首頁最重要
實際上,每個頁面的重要性都是通過計算來量化的。
基本的計算方法思想
1.未鏈接的頁面分數(shù)為 1
未鏈接的頁面分數(shù)為 1
2.有鏈接的頁面得分為正在鏈接的頁面的總得分
有鏈接的頁面得分為正在鏈接的頁面的總得分
3.當有多個網(wǎng)頁的鏈接時,鏈接分數(shù)均勻分布
鏈接分數(shù)均勻分布
4.來自高度鏈接網(wǎng)頁的鏈接具有很高的價值
該圖中心頁面有三個獨立頁面指向它的鏈接,所以它的分數(shù)是 3 。
首頁有一個很大的分數(shù),因為鏈接是從分數(shù)為 3 的頁面指向它的。
在動畫中的六個頁面中,判斷最上面的頁面是最重要的頁面----這是佩奇排名的基本思想。
基本的計算方法思想的循環(huán)問題
如果按照順序來計算每個頁面的分數(shù)時,那么就會出現(xiàn)問題:以這種方式計算,它將無限循環(huán),并且在循環(huán)中的頁面得分在任何地方都會很高。
循環(huán)的問題可以通過“隨機游走模型”的計算方法來解決。
隨機游走模型
以小豬佩奇瀏覽網(wǎng)頁為例。
小豬佩奇開始訪問「五分鐘學算法」中有趣的頁面,那么從這個左下角頁面開始。
它們跟隨一個鏈接并移動到另外的一個頁面,看了一些之后,發(fā)現(xiàn)不敢興趣了,這樣就停止了瀏覽。
然后,又一天,它在小吳的推薦下,在完全不同的頁面進行瀏覽,跟隨一個鏈接并移動到另外的一個頁面,一旦失去興趣就停止瀏覽。
像這樣,重復從某個頁面開始瀏覽,移動幾頁后便停止的操作,如果從互聯(lián)網(wǎng)空間一側(cè)進行觀察,就像網(wǎng)頁瀏覽的人:重復移動頁面幾次后傳送到一個完全不同的頁面。
量化隨機游走模型
假設1 - α代表選擇當前頁面中的一個鏈接的概率。
α代表該人將傳送到其他頁面的概率。
現(xiàn)在用隨機游走模型 處理上述的循環(huán)問題。
如果總頁面訪問次數(shù)達到1000次之后,使用百分比進行表示:那么這個值就表示“在某個時間點查看頁面的概率”。
更實用的計算方法
如圖所示,現(xiàn)在來嘗試計算復雜的鏈接網(wǎng)絡中每個頁面的分數(shù)。
現(xiàn)在均勻設置分數(shù),使總分加起來為 1 。而后根據(jù)網(wǎng)頁瀏覽者的移動,來計算每個頁面的概率。
移動 n次時出現(xiàn)在 A 中的概率表示未PAn,移動 n 次時出現(xiàn)在 B 中的概率表示未PBn。
舉一個例子,在移動 1 次之后求在 A 的概率PA 1。
在 C 選擇移動的概率是1-α。
其中,移動到 A 的一種場景是,C 中的佩奇選擇了移動而不是傳送。另外,這里選擇了 A 而不是 B 作為目的地。
并且,根據(jù)上面的當有多個網(wǎng)頁的鏈接時,鏈接分數(shù)均勻分布這條規(guī)則,從 A 或 B 選擇 A 的概率是 0.5 。
因此,從 C 移動到 A 的概率是PC0 ?? (1-α) ?? 0.5。
A 被選為傳送目標的概率是 0.25
A 被選為傳送目標的概率是 0.25 ,根據(jù)前面的理論:在 A、B、C、D 中小佩奇選擇傳送的概率為α。因此,通過傳送移動到 A 的概率為α ?? 0.25。 所以,移動一次后在 A 的概率為 PA1 = PC0 ?? ( 1 - α ) ?? 0.5 + α ?? 0.25
其中PC0 = 0.25,α = 0.15,代入計算后PA1 = 0.14375。
這樣,通過計算后 B 、 C 、D 頁的概率也更新了。
B 、 C 、D 頁的概率也更新了
上面在移動 1 次之后這四個頁面的概率更新情況,根據(jù)上述相同的方法計算 2 次后小佩奇瀏覽在每個頁面的概率。
移動 2 次后
同樣的,經(jīng)過大量的移動,在每個頁面上的概率逐漸趨于固定值。當數(shù)值固定是,計算也就完成了。
-
Web
+關注
關注
2文章
1266瀏覽量
69566 -
算法
+關注
關注
23文章
4623瀏覽量
93104 -
計算方法
+關注
關注
0文章
16瀏覽量
10257
原文標題:你知道“啥是佩奇”,卻不一定了解佩奇排名算法
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論