南昌網站建設

簡化的HITS算法與原理示例

發布日期:2017-02-27 作者: 點擊:

HITS算法,網上有比較詳細介紹的文章并不多。華企電商(www.nchq.cc)之前有一篇關于HITS算法的文章是,HITS搜索引擎算法的研究?;氐街黝},從現在搜索引擎算法來看,HITS算法扮演著很重要的位置。是比較權威和使用廣泛的算法之一。HITS算法要比PageRank算法復雜些,但可以用簡單的形式描述其本質,同時也會給出其工作原理的示例。 


HITS算法,首先要做的是判別與主題相關的網頁集合,要分別為每個提交給搜索引擎的用戶查詢判定出一個主題相關網頁集。如果網頁滿足下面的條件,便可判定它們是與主題相關的:


a)這些網頁屬于一個網頁集合,且網頁集合中含有與用戶查詢最相關的文本。


b)這些網頁鏈向滿足a條件的網頁,或是滿足a條件的網頁鏈向該網頁。


這里有一個重要的鏈接假設是部分基于“鏈接——內容”假設的。也就是說,如果一個網頁與主題相關的網頁有鏈接關系,即使它并不含有與主題相匹配的文本信息(至少從用戶查詢文本來看是這樣的),該網頁也可能是與主題相關的。


即使是根據文本內容判定出來的相關網頁,有些時候也并不相關,因為在實踐中很難判定主題相關性,尤其是那些本身就有歧義的查詢。一個經典的例子就是“美洲虎”。用戶可能是想要查詢動物,或以該詞命名的汽車的相關信息。結果,返回的與主題相關的網頁卻是不全的,且只是部分相關的。但Kleinberg的試驗表明,這并不是一個嚴重問題。


算法的第二部分是為主題相關集合中的每個頁面算出其中心度和權威度。算法使用了與PageRank算法中相似的投票方法,同時也采用了逆向投票機制,使得每個網頁都可以給鏈向它的網頁投票。HITS算法的結果是為每個網頁賦予一個中心度和一個權威度,而不是像前面所說的那樣,只是將它們區分為中心網頁和權威網頁。


簡化的HITS算法:


第一階段:找出與查詢相關或主題相關的網頁集合


1.根據搜索引擎中用戶輸入的文本查詢,找出t個與該查詢最為相關的文本網頁,其中t是預先設定的參數;


2.向集合中添加所有與匹配網頁存在著鏈接關系(鏈向或者被鏈向)的網頁;


3.移除所有的站內鏈接;


第二階段:初始化每個網頁的中心度和權威度


4.為每個網頁賦予一個權威權重X和中心權重y,如X=y=1;


第三階段:重復投票過程


5.統計每個網頁的入鏈網頁的中心度之和,計算出每個網頁的權威權重;


6.統計每個網頁的出鏈網頁的權威度之和,計算出每個網頁的中心權重;


7.將所有網頁的中心度都除以最高中心度以將其標準化,將所有網頁的權威度都除以最高權威度以將其標準化;


8.重復第5步到第7步n次,而Kleinberg在一些言論當中是建議重復20次;


第四階段:報告結果


9.返回一張排好序的網頁列表,列表中的網頁有些具有較高的中心度,有些則具有較高的權威度,這樣用戶自己就可以選出他們認為是最好的那種類型的網頁(Kleinberg建議選擇前5—10個中心網頁和前5-10個權威網頁)。


相關標簽:南昌網站建設

最近瀏覽:

在線客服
分享
歡迎給我們留言
請在此輸入留言內容,我們會盡快與您聯系。
姓名
聯系人
電話
座機/手機號碼
吉泽明步在办公室被强,国产激情电影综合在线看,国产国产乱老熟视频网站