百度如何去除重復內容

互聯網上的資源目前公開可以得到的大概數據約為千億以上級別,而百度是中文搜索引擎,它搜索返回的數據飽和程度約為1億,谷歌可返回約為250億 ,在這千億級互聯網的資源中有絕大部分是重復的,而搜索引擎的資源有限,所以搜索引擎內部自身會有一套機制來去除掉一些重復的內容,但這并不意味著搜索引擎就不收錄重復內容,只是對重復內容進行相應的處理,從中挑選一部分符合條件的頁面來排序。

重復判斷

如何判斷兩個或更多頁面是否為重復內容?這個問題相信很多人都很迷茫,而且一直在用網上流傳的那些所謂的偽原創方法,像替換關鍵詞、打亂段落、文章拼湊等,無論是怎么做,其實百度都有辦法可以識別出來的

百度目前所采用的是提取文章指紋的模式,簡單來講是一種基于詞頻的處理:

通常一篇內容,出現在互聯網上無數個站點上的時候,它們會被列入統一的一個倒排索引庫,而百度在索引時會將這篇文章進行分詞處理,通常是提取出三種詞:高頻詞、中頻詞及低頻詞。

高頻詞由于很多頁面都在用,所以并不能說明問題,自然提取出來的詞是要去掉高頻詞的。同樣,低頻詞由于所使用的較少,也不能作為參考,同樣是要去除掉的,那么只剩下中頻詞。

據百度構架工程師透露,百度采用提取中頻詞來做對比的方式對去重后的頁面進行比對,發現這兩篇文章甚至更多篇文章的內容表達的頁面是一樣的,所以說在一篇文章中對分出來的、使用頻率適中的詞是最能表達一篇文章中的意思的。

這只是比較主流的一種作法,當然百度還會根據分詞出來的詞義試圖來理解文章的內容,這是持久戰,隨著越來越智能化的搜索引擎,像上面所說的那種文章拼湊,根本無法讀通、傷害用戶體驗的文章將同樣會被百度識別出來的。

如何應對

重復內容其實在實際做站的過程中很難去避免的,尤其是對具有規模的網站,有數十萬、上百萬頁面的網站,重復內容同樣都會有很多的,就好像我們寫個人博客也不可能保證100%原創的,像金華的博客也時不時會轉載一些相關的技術文章,當然還有一種情況是作者認為是自己寫的,實際上經過百度比對發現中頻詞其實是一樣的,那同樣相當于重復內容的。

重復內容其實并不是那么可怕,文章最開始的時候金華就說了,并不是百度不會收錄重復內容,而是會從重復內容中挑選一些符合條件的頁面進而讓它們來參與排名,而這些條件因素是非常多的,對用戶的價值、點擊率、社會化因素、網站權威度等等,都是這些條件的因素。

如果我們無法改變頁面的中頻詞,那么就努力做好其它方面的條件因素吧

現在網絡上流傳的一種作法是二八定律,80%的重復內容+20%的原創內容,其實理論是沒有錯,但我們實際做站的過程中真的能很好的遵循嗎?這個肯定是很難的,與其這樣被動的做,倒不如大大方方的對網站的重復內容進行更多的曝光,使其更多的體現出對用戶的價值、有更高的點擊率及社會化因素,長此以往下去,我們的目標就只有一個,得到百度的權威度認可,這個是最最關鍵的因素!

寫的思路比較亂,表達不是很清楚,僅以此作個記錄。

未經允許不得轉載:鄺金華博客 » 百度如何去除重復內容

贊 (0)
广西快三走势图一定牛 上海哈灵麻将下载2019 大富翁10官网 北京快3全天一期计划 快乐8开奖查询 水井坊股票论坛 熊猫麻将血战到底规则 财神捕鱼为什么总是输 湖南红中麻将 美女捕鱼游戏手机版 哈灵麻将安卓