百度官方對于抓取建庫的問答集錦

由于現場QA環節火爆熱烈內容超多,故本次僅放出spider抓取建庫部分,其它內容請靜待下期。

問:為什么收錄量像坐過山車一樣的,還有為什么有些網頁今天在明天就沒了?
答:百度會周期建庫,且每個庫的收錄量是恒定的,你老是有新增,肯定會再從庫里淘汰一些,反正總是保持那個庫是滿的。在建庫的過程中,你會感覺有波動。具體的怎么篩,哪個頁面會留下哪個頁面會淘汰,這個策略是有很多的,他隨著時間的變化,收錄的標準策略也是在發生微調。

問:我們站點使用CDN加速會不會比較容易造成蜘蛛無法抓???因為有時候修改掉他綁定的什么東西。
答:如果要修改掉一定要通知到上一級,現在不存在這個問題,現在你如果修改掉也可以解析掉,之前可能會存在這個問題。

問:你們百度自己也有一個CDN加速,對抓錄排名有沒有影響?
答:在使用CDN加速這個問題上,我們對所有站點一視同仁。但我建議你使用技術能力強的CDN服務商,保證站點的穩定和速度,百度會更喜歡。

問:
剛才您說IP上的站點數不能太多,那CDN這種情況怎么辦?
答:CDN的情況另說,如果我們識別出來是CDN的話不會受站點數量的影響,如果你是提供獨立IP的話會有這樣一些問題。

問:還是IP上站點數量的問題,如果是主域跟二級域名呢?也受數量限制?
答:我說的是獨立域名。當然質量比較好的二級域名也可以認為是獨立域名

問:多個域名,他有相同的一些內容,怎么建庫?
答:如果是多域名在同一個主域下面有相同內容的話,不可能所有都建庫,而且被建庫的那個可能不是你希望的那個,所以盡量不要有相同的內容。

問:剛才講的IP如果是多域名的話,好幾百個IP域名,現在我們也用了CDN,按照剛才的說法,單個IP最多抓多少?1000萬是說對站點還是對IP?
答:對IP,但1000萬是我舉例,不是實際的數據,這個數據不會分享出來的

問:現在我的網站被很多蜘蛛爬,我想只讓百度蜘蛛爬,百度蜘蛛IP多少?能設白名單么?
答:百度蜘蛛IP是不斷變的,現在網上的確有一些白名單的說法,暫時是有較的,但不保證今后不會變,所以建議站點還是通過ua進行判斷,我們百度站長平臺上有相關的文章,你可以找一下。

問:如果我寫robots只想禁掉動態鏈接的話,會不會影響動態參數前面正常鏈接的抓???
答:不會的,你原來的頁面還在,肯定會抓。

問:比如我們一個域名www.abcde.com,我們想把帶?號的url全部禁掉,首頁我們不要禁掉,怎么弄?
答:?前面有個*,后面再有個*就可以了。

問:我想了解,如果我現在收錄有5萬,大概多長時間才能把我原來收錄5萬重新抓取一遍?
答:不同站點不好說,一個是你站點做的很好,知名度很響更新很快質量很好就會快;如果你的站點默默無聞,貢獻很少,可能就會很慢。

(接上個問題)
問:就是差不多的情況,大概。
答:這個沒有人能估出來。

問:百度站長平臺上有數據提交的工具,我們實時提交,你們也會實時抓取嗎?
答:不會,他會有一層判斷?,F在只是通知你提交成功,后面什么時候抓,什么時候建庫沒有,我們正在研究要不要把這個分享出來。

問:我網站有一些列表頁,都沒有鏈接,擔心百度抓不到
答:現在百度站長平臺的站內搜索工具有一個綠色收錄通道,在那里提交種子頁,我們就知道的。

(接上個問題)
問:提交種子頁面必須要用站搜?
答:是的。

問:如果說頁面里url特別多的話,蜘蛛會不會有選擇性的進行抓???
答:不會,他都會一個不漏給你提出來,但會把JS、CSS這樣的鏈接給過濾掉。但請注意,全部抓取過來之后會進行篩選,并不是所有都會建庫。

問:現在很多網站都有自己的站內搜索,都會產生站內搜索結果頁,百度不喜歡搜索結果頁的話,我們用這個會不會對我們有影響?只是不喜歡還是對我們網站會有懲罰
答:蜘蛛會去抓,抓完之后重要是提取里面的鏈接。如果只有一兩條這樣的頁面質量不好問題不大,如果整體質量較差,有可能受到懲罰。

問:新出的時效性文章當時沒有被收錄,后期是否還會被收錄?
答:

問:站點每天最高爬蟲多少次?
答:這個其實說不好,有的站點我們一天會抓一兩千萬,有的站點只抓幾個、幾十個,看你的規模和質量,而且這個抓取量也是會根據網站的情況進行調整的。

問:我們的頁面本身就很大,會不會解析不出來?
答:頁面本身很大倒沒問題,趕集、安居客這些量都很大,沒有問題。我剛才說的例子,你每次都follow出來新鏈接,隨機把后面的參數去掉都不影響這個網頁的正常訪問,這種肯定有問題的。

問:剛才說對URL的長度有要求,那對每一段、就是目錄名的長度有沒有要求
答:沒有要求,我們是要求url從www開始到結束,總長度不超過1024個字節

問:站內重復內容是怎么判斷的?文本內容一樣結構不一樣,算不算重復?
答:算重復

問:
假設是整個頁面全是Flash,如果我把一些欄目或者最新的內容隱藏掉,不影響美觀隱藏掉,如果用hidden屬性能不能提取出來?CSS可不可以?
答:hidden可以提出來,但如果是注釋就不會管。CSS不可以。

問:頁面大小不超過1兆,是指頁面壓縮以前還是以后。
答:指頁面壓縮以后,不要超過1兆

問:我網站的信息已經過時了,但網頁返回的是200,會受懲罰?為什么呀?
答:用戶在搜索結果里點了你的結果,導流導到你的網站,但沒什么可看的,對用戶沒有用,百度當然不喜歡。

問:現在我們很多網站,為了讓用戶覺得有意思,內容沒了就放一張圖片,寫一些有意思的話,什么“工程師去哪啦”之類的,對百度友好不?
答:最好不要用,我知道站點是想讓百度當內容死鏈來識別,但內容死鏈識別起來是有準確率和召回率風險的。

問:我們團購網站的確會有過期團購的頁面,會受懲罰嗎
答:如果量特別大、點擊量很大的話肯定會有懲罰的。有些可以當內容死鏈被分析出來,如果分析不出來,會被一些其他的策略挖出來,會有這樣的問題。

問:剛才說資訊內容頁面,上面有個發布時間好,那如果頁面上沒有時間呢?
答:那我們往往是按當時抓取的時間來做判定。

問:評論里面時間重要嗎。
答:百度更重視主體內容的時間,評論不算主體內容。

問:我們是個平臺,很多產品其實只是一個型號變更了,其實顏色都是一模一樣的,對蜘蛛而言僅僅只是幾個字符,會被識別為重復嗎
答:如果是一個產品的結構化信息的話,應該不會被認為是重復。如果你是簡單內容摘要的方式進行介紹的話,可能會存在重復問題。

問:靜態URL和動態URL區別大嗎?
答:不大,我們現在認為靜態和動態都一樣的,因為從url上面他能夠識別出來,但是抓取回來的東西不太一樣。所以現在認為無論你是靜態還是動態,我們都認為同樣都是url來對待。

未經允許不得轉載:鄺金華博客 » 百度官方對于抓取建庫的問答集錦

贊 (0)
广西快三走势图一定牛 家彩开奖千禧3d试机号 下载app安徽11选5遗漏 p2p理财平台排名前十 江西多乐彩走势图 河北快3历史遗漏 山西十一选五遗漏 香港开马开奖现场直播 炒股开户平台 体彩黑龙江6十1中奖对照表 阿里股票实时行情