首頁  >  文章  >  web前端  >  關於爬蟲協議robots介紹

關於爬蟲協議robots介紹

巴扎黑
巴扎黑原創
2017-07-19 15:47:502607瀏覽

前面的話

  Robots協議(也稱為爬蟲協議、機器人協議等)全名為「網路爬蟲排除標準」(Robots Exclusion Protocol),網站透過Robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。本文將詳細介紹爬蟲協定robots

 Robots協定的全名是「網路爬蟲排除標準」(Robots Exclusion Protocol),它的功能是透過Robots檔案告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取,抓取的標準等。它以一個文字檔案的形式放在網站的根目錄中,用任何一個常見的文字編輯器都可以對其進行修改和編輯。對於站長來說,合理的書寫robots.txt檔案可以更合理的利用搜尋引擎,屏蔽掉一些低品質的頁面,提高網站品質和對搜尋引擎的友善度。

具體寫法如下:

(*為萬用字元)


#User-agent: * 代表的所有的搜尋引擎種類,

Disallow: /admin/ 這裡定義是禁止爬尋admin目錄下面的目錄

Disallow: /require/ 這裡定義是禁止爬尋require目錄下面的目錄

#Disallow : /ABC/ 這裡定義是禁止爬尋ABC目錄下面的目錄

Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以”.htm”為後綴的URL(包含子目錄)。

Disallow: /*?* 禁止造訪網站中所有包含問號(?) 的網址

Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片

Disallow:/ab/adc.html 禁止爬取ab資料夾下面的adc.html檔案。

Allow: /cgi-bin/ 這裡定義是允許爬尋cgi-bin目錄下面的目錄

Allow: /tmp 這裡定義是允許爬尋tmp的整個目錄

Allow: .htm$ 僅允許存取以”.htm”為後綴的URL。

Allow: .gif$ 允許抓取網頁和gif格式圖片

Sitemap: 網站地圖告訴爬蟲這個頁面是網站地圖

概述

  robots .txt檔案是一個文字文件,是搜尋引擎中造訪網站的時候要查看的第一個檔案。 robots.txt檔案告訴蜘蛛程式在伺服器上什麼檔案是可以被檢視的

  當一個搜尋蜘蛛造訪一個網站時,它會先檢查該網站根目錄下是否存在robots.txt,如果存在,搜尋機器人就會依照該檔案中的內容來決定存取的範圍;如果該檔案不存在,所有的搜尋蜘蛛將能夠存取網站上所有沒有被口令保護的頁面

【原則】

  Robots協定是國際網路界通行的道德規範,基於以下原則建立:

  1、搜尋科技應服務於人類,同時尊重資訊提供者的意願,並維護其隱私權;

  2、網站有義務保護其使用者的個人資訊和隱私不被侵犯

  [注意]robots.txt必須放置在一個網站的根目錄下,而且檔案名稱必須全部小寫

 

寫法

【User-agent】

#  下面程式碼中*代表的所有的搜尋引擎種類,*是一個通配符,表示所有的搜尋機器人

User-agent: *

  下面程式碼表示百度的搜尋機器人

User-agent: Baiduspider

【Disallow】

#  下面程式碼表示禁止爬尋admin目錄下面的目錄

Disallow: /admin/

  下面程式碼表示禁止抓取網頁所有的.jpg格式的圖片

Disallow: /.jpg$

  下面程式碼表示禁止爬取ab資料夾下面的adc.html檔案

Disallow:/ab/adc.html

  下面程式碼表示禁止存取網站中所有包含問號(?) 的網址

Disallow: /*?*

#下列程式碼表示禁止造訪網站中所有頁面

Disallow: /

【Allow】

  下面程式碼表示允許存取以".html"為後綴的URL

#
Allow: .html$

  下面程式碼表示允許爬尋tmp的整個目錄

Allow: /tmp

 

用法

#  下面程式碼表示允許所有的robot造訪網站所有的頁面

User-agent: *Allow: /

  下面程式碼表示禁止所有搜尋引擎造訪網站的任何部分

User-agent: *Disallow: /

  下面程式碼表示禁止百度的機器人造訪其網站下其所有的目錄

User-agent: Baiduspider
Disallow: /

  下面程式碼表示禁止所有搜尋引擎造訪網站的cgi-bin、tmp、~joe這三個目錄下的檔案

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

 

迷思

  【迷思一】:網站上的所有檔案都需要蜘蛛抓取,那就沒必要在新增robots.txt檔案了。反正如果該檔案不存在,所有的搜尋蜘蛛將預設能夠存取網站上所有沒有被口令保護的頁面

  每當用戶試圖存取某個不存在的URL時,伺服器都會在日誌中記錄404錯誤(無法找到文件)。每當搜尋蜘蛛來尋找不存在的robots.txt檔案時,伺服器也會在日誌中記錄一條404錯誤,所以應該在網站中新增一個robots.txt

  【迷思二】:在robots .txt檔案中設定所有的檔案都可以被搜尋蜘蛛抓取,這樣可以增加網站的收錄率

  網站中的程式腳本、樣式表等檔案即使被蜘蛛收錄,也不會增加網站的收錄率,還只會浪費伺服器資源。因此必須在robots.txt檔案中設定不要讓搜尋蜘蛛索引這些檔案

 

以上是關於爬蟲協議robots介紹的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
上一篇:數學,數字下一篇:數學,數字