南昌網站建設

SEO個性化網頁權重研究

發布日期:2017-02-06 作者: 點擊:

個性化網頁權重的常見形式就是個性化PageRank?,F代搜索引擎對自然搜索引擎排名的排序依據除了使用傳統的文本匹配技術以外,也廣泛地使用網頁權重值來進行。最為有名的例子就是Google的PageRank技術。利用web結構的鏈接關系,PageRank可以計算每個網頁的權重值,并據此對結果網頁進行排序。因此,如果利用用戶的偏好信息來修改PageRank權重值的計算,據此就產生表達特定用戶個性化信息需求的搜索引擎排序結果。從效果上看,這種方法較PageRank更為實用,因為畢竟用戶是不可能全部遍歷獲取的查詢網頁結果集合,所以把和用戶需求聯系最為密切的網頁放于搜索結果前面,必然更易于用戶訪問。其實,Page等早已提出個性化PageRank的設想,只是他們并沒有在此項研究上深人地開展下去基于個性化網頁權重的個性化搜索引擎模型。


現在,人們提出的個性化PageRank方法有很多,主要分為兩大類:一類是直接修改基于超鏈關系得到的網頁權重值;另一類是在傳統PageRank公式上添加修正參數來反映用戶的個性化要求。


在原先的PageRank計算公式中,模型對每個網頁的鏈接分配了相同的概率值,所以這種方法給不同鏈接和網頁分配的權重是一樣的,當前網頁的權重值也會平均地影響鏈出網頁,同時它還假設用戶隨機跳轉到其他任何網頁的概率都是一樣的。所以,這種計算方法主要是依賴于網頁結構圖中的鏈接來進行分析。但是,這些鏈接卻是由網站的網頁設計者生成的,因此它只能反映設計者對Web中其他網頁的理解。另外,這種方法忽略了另外一個重要方面,那就是Web用戶對Web網頁的理解。也就是說,單純使用網頁之間的超鏈結構來表達網頁權重值是不充分的。比較簡單易行的修改網頁權重做法就是利用Web日志挖掘信息來獲取用戶對Web網頁的理解程度,以完善傳統的PageRank計算方式。事實上,憑直覺可以判斷出來,那些訪問頻率較高的超鏈應該比那些訪問頻率較低的超鏈更為重要,然而大部分的傳統超鏈分析技術對這兩者并不加以區分。


對于結合使用信息的超鏈分析技術最初是由Zhu等提出的,他們把相關公式稱為PageRate,雖然他們也宣稱自己的算法是PageRank的擴展,但是其實這種算法不具有任何PageRank的性質。這種算法對所有的鏈入不加區分,并不考慮高頻訪問和低頻訪問的區別。同時,他們也沒有給出實驗結論,對可能存在的問題也沒有探討,設計的公式還存在問題。


有些其他方面的研究也涉及使用信息分析。例如,使用一種增強學習方法來對搜索結果進行重排序和過濾,對于每個查詢結果中的URL,系統都會記錄不同用戶的點擊情況。在隨后的查詢中,上述信息就可以有效地提升高頻訪問的URL權值,而降低低頻訪問的URL權值這樣的類似方法還應用于一些商業搜索引擎中,如有的學者就在多元搜索引擎中利用上述方法實現一種隱式的相關度反饋機制,它將用戶點擊產生的使用情況主要用于結果網頁合并和網頁重排序等操作中舊。用戶使用信息還應用于基于模式的應用程序中,主要功能是及時學習用戶的興趣,并對搜索結果重排序以反映這種用戶興趣,如按照用戶模式的特征改變不同主題詞的相對重要程度。


比較好的方法是利用挖掘Web日志中的信息結合傳統PageRank公式得出一種新的網頁權重計算公式,即結合使用挖掘的PageRank,如特征敏感的PageRank(usage aware PageRank,UPR)。它結合了靜態鏈接結構分析和用戶使用分析兩項技術:一方面仍然強調傳統網頁間的超鏈關系;另一方面,它通過分析日志,判斷這些實際存在的網頁超鏈中究竟哪些是經常被用戶訪問的,哪些不是經常被用戶訪問的,并以此來改進傳統方法中由超鏈關系產生的網頁權重值。在UPR方法中,甚至還可以通過調整參數設置來控制靜態鏈接結構分析技術和Web使用挖掘技術的作用力度,如果參數設置為O,公式就等價于傳統的PageRank公式,如果參數設置為1,則重點就轉移到使用挖掘分析算法上,介于兩者之間則會兼顧,因此這種方式較傳統方式更為概括。從效率上看,這種算法也有優勢,只需通過一次額外的預處理步驟,其他的迭代處理和傳統方式沒有區別。


然而這種新的方法也存在不足之處。即使網站管理員可以得到自己站點用戶的訪問信息,并將其應用于UPR分析,但是這些信息顯然沒有包含全部的必要信息,如管理員不可能獲得不屬于自己站點訪問內的鏈出網頁使用情況。雖然可以通過爬蟲程序遍歷那些網頁的超鏈結構,但是除了可以獲得用戶通過哪些網頁的鏈出網頁訪問本地網頁的使用信息,并不可能獲得其他更為重要的使用信息。也就是說,從站點層次上看,全部的結構信息和使用信息是可以全部獲取的,然而從整個Web網絡層次上看,卻是不完整的。同時,對單一的應用技術而言,整個Web網絡上的用戶使用信息也是無法完整獲取的。諸如Google搜索工具欄等客戶端應用程序,雖然它們可以收集用戶的使用信息,而且這些信息也確實是基于整個web范圍而言的,然而這里所涉及的用戶范圍是相當小的,他們首先必須安裝客戶端應用程序,而且必須進行相關設置以同意公開這些屬于個人隱私的Web訪問信息。需要說明的是,諸如Google搜索工具欄之類的軟件在默認情況下是尊重用戶的個人隱私權的,除非用戶自己允許,它并不主動收集任何用戶訪問的信息,當然也有其他一些客戶端應用程序似乎并不遵守上述原則。


因此,這種結合使用挖掘的PageRank最適用于網站內部的網頁搜索,搜索引擎工作的原理先獲取該網站的結構信息,結合用戶使用信息,可以得到傳統PageRank方法的擴展模型。實驗結果也能證明這種算法更能有效地提升高訪問頻率的網頁權重值,相應地降低那些低訪問頻率的網頁權重值。



隨著搜索引擎技術慢慢走向成熟,越來越多的搜索引擎優化工作者以及很難從搜索引擎的表象去研究SEO。近一年時間以來,Google、百度等搜索引擎不斷調整鏈接分析技術,加深SEO門檻。SEOER也必須隨著搜索引擎的發展而發展。


相關標簽:南昌網站制作

最近瀏覽:

在線客服
分享
歡迎給我們留言
請在此輸入留言內容,我們會盡快與您聯系。
姓名
聯系人
電話
座機/手機號碼
吉泽明步在办公室被强,国产激情电影综合在线看,国产国产乱老熟视频网站