2010年12月14日 星期二

淺談百度的網頁訊息採集工具

什麼是baiduspider
baiduspider是百度搜索引擎的一個自動程序。 它的作用是訪問互聯網上的html網頁,建立索引數據庫,使用戶能在百度搜索引擎中搜索到您網站的網頁。

baiduspider對一個網站服務器造成的訪問壓力如何?
baiduspider會自動根據服務器的負載能力調節訪問密度。 在連續訪問一段時間後,baiduspider會暫停一會,以防止增大服務器的訪問壓力。 所以在一般情況下,baiduspider對您網站的服務器不會造成過大壓力。

為什麼baiduspider不停的抓取我的網站?
對於您網站上新產生的或者持續更新的頁面,baiduspider會持續抓取。 此外,您也可以檢查網站訪問日誌中baiduspider的訪問是否正常,以防止有人惡意冒充baiduspider來頻繁抓取您的網站。 如果您發現baiduspider非正常抓取您的網站,請反饋至 webmaster@baidu.com ,並請盡量給出baiduspider對貴站的訪問日誌,以便於我們跟踪處理。

我不想我的網站被baiduspider訪問,我該怎麼做? SEO
baiduspider遵守互聯網robots協議。您可以利用robots.txt文件完全禁止baiduspider訪問您的網站,或者禁止baiduspider訪問您網站上的部分文件。 注意:禁止baiduspider訪問您的網站,將使您的網站上的網頁,在百度搜索引擎以及所有百度提供搜索引擎服務的搜索引擎中無法被搜索到。
關於robots.txt的寫作方法,請參看我們的介紹:robots.txt寫作方法

為什麼我的網站已經加了robots.txt,還能在百度搜索出來?
因為搜索引擎索引數據庫的更新需要時間。雖然baiduspider已經停止訪問您網站上的網頁,但百度搜索引擎數據庫中已經建立的網頁索引信息,可能需要二至四周才會清除。另外也請檢查您的robots配置是否正確。

百度蜘蛛在robots.txt中的名字是什麼? SEO
baiduspider全部為小寫字母。

baiduspider多長時間之後會重新抓取我的網頁?
百度搜索引擎每週更新,網頁視重要性有不同的更新率,頻率在幾天至一月之間,baiduspider會重新訪問和更新一個網頁。

知道了什麼是百度蜘蛛,那麼怎麼才能知道蜘蛛是否來過你的站?這個可以從你服務器或者虛擬主機的日誌中看出來,如果你還想知道有沒有其它搜索引擎的蜘蛛來過你的站,你可以在日誌文件中搜索spider這個詞,或者搜索蜘蛛的IP,我的就查到sogou也來過我的站,IIS日誌與Apache的日誌是一樣的,都可以查到

沒有留言:

張貼留言