公司網站制作基于網頁鏈接的通用識別方式

日期 : 2020-12-22 12:10:16
        基于網頁鏈接的通用識別方式。前面介紹的垃圾網頁識別技術并不具有通用性,而且非常被動,總是等到出現一種作弊方式后才針對性的采用一種相應的補救措施,有些事后諸葛亮的做法。而下面要介紹的基于鏈接結構以及稍后介紹的機器學習分類法與作弊方式均無關,具有很強的通用性。

        Trust Rank算法是一種基于鏈接結構的用來識別垃圾網頁的經典算法。這個算法的假設條件是頁面A鏈接到頁面B則意味著頁面A推薦頁面B的內容,因此頁面A的Trust Rank值可以傳遞分配一部分給頁面B。也就是說質量高的網頁通常只會被質量更高的網頁鏈接指向。

        于是可以先構建一定數量的具備較高權威內容或者較多出鏈接的知名網頁作為起點種子網頁,然后將它們的Trust Rank值按照出鏈接數量比例傳遞分配到第二層頁面,按照同樣的方法將Trust Rank值傳遞分配到第三、四層,以此類推。這樣,通常越遠離第一層種子網頁的Trust Rank值越小,越有可能是垃圾網頁。于是可以設定一個閾值,當低于這個值時將其判斷為垃圾頁面。

相關文章
亚洲国产欧美日韩高清片_国产a亚洲欧美_欧美日韩国产码高清