深入了解搜尋引擎算法的網頁去重原理

傳銘君 發佈 2019-12-30T17:50:46+00:00

在網際網路技術比較發達的今天,相同資料會在多個網站更新,相同新聞報導會被絕大多數媒體網站報導,加上小站長和SEO人員不辭勞苦地進行網絡收集,造成了網絡上擁有大量的重複信息。然而當用戶搜索某個關鍵字時,搜尋引擎必然不願展現給用戶的百度搜索都是相同的內容。

  在網際網路技術比較發達的今天,相同資料會在多個網站更新,相同新聞報導會被絕大多數媒體網站報導,加上小站長和SEO人員不辭勞苦地進行網絡收集,造成了網絡上擁有大量的重複信息。然而當用戶搜索某個關鍵字時,搜尋引擎必然不願展現給用戶的百度搜索都是相同的內容。抓取這些重複的網頁頁面,在一定實際意義上就是對搜尋引擎自身資源的浪費,因此除去重複內容的網頁頁面也變成搜尋引擎所遭遇的的一大問題。

  在一般的搜尋引擎架構中,網頁頁面去重複一般在Spider抓取部分就存在的,去重複步驟在整個搜尋引擎架構中執行的越快,越可以節省後續處理系統的資源。搜尋引擎一般會對已經抓取過的重複頁面進行分類處理,例如,判斷某個站點是否包括大量的重複頁面,或者該站點是否完全收集其他站點的內容等,已決定之後對該站點的抓取情況,或者決定是否直接屏蔽掉抓取。

  去重複的工作一般會在詞性標註之後和資料庫索引之前進行(也有可能在詞性標註之前),搜尋引擎會在頁面已經分離出來的關鍵字中,獲取部分具有象徵性的關鍵字,隨後計算這些關鍵字的「指紋」。每一個網頁頁面都會有一個這樣特點指紋,當新抓取的網頁頁面的關鍵字指紋和已索引網頁頁面的關鍵字指紋有重疊時,那麼該新網頁頁面就可能會被搜尋引擎視作重複內容而捨棄資料庫索引。

  實際工作上的搜尋引擎,不僅使用詞性標註步驟所分離出來的更有意義的關鍵字,還會使用持續雷射切割的方式獲取關鍵字,並進行指紋計算。持續雷射切割就是以單獨字向後移動的方式進行切詞,例如,「百度搜索開始嚴厲打擊買賣連結」會被切割成「百度搜索開」「度開始」「開始打"「始嚴厲打擊」「嚴厲打擊買」「擊交易」「交易鏈」「賣連結」。隨後從這些詞中獲取部分關鍵字進行指紋計算,參加是不是重複內容的對比。這只是搜尋引擎鑑別重複網頁頁面的基本算法,還有很多其他應對重複網頁頁面的算法。

  因此網絡上流行的絕大多數偽原創工具,不是不能矇騙搜尋引擎,就是把內容做的完全讀不通,所以理論上使用普通偽原創工具不能得到搜尋引擎的正常百度收錄和排行。但是由於並不是對所有的重複頁面都直接拋下不索引,而是會根據重複網頁頁面所屬網站的權重值適度放開索引標準。

  另外,不僅是搜尋引擎需要網頁頁面去重複,自己建網站也需要對同站頁面進行去重複。

關鍵字: