這篇文章帶給大家的內容是關於什麼是爬蟲? python網路爬蟲中概念的介紹,有一定的參考價值,有需要的朋友可以參考一下,希望對你有幫助。
爬蟲相關概念簡介
a)什麼是爬蟲:
爬蟲就是寫程式模擬瀏覽器上網,然後讓其到網路上抓取資料的過程。
b)哪些語言可以實作爬蟲:
1.php:可以實作爬蟲。 php被號稱是全世界最優美的語言(當然是其自己號稱的,就是王婆賣瓜的意思),但是php在實現爬蟲中支持多線程和多進程方面做的不好。
2.java:可以實現爬蟲。 java可以非常好的處理和實現爬蟲,是唯一可以與python並駕齊驅且是python的頭號勁敵。但java實作爬蟲程式碼較為臃腫,重構成本較大。
3.c、c :可以實現爬蟲。但是使用這種方式實現爬蟲純粹是某些人(大佬們)能力的體現,卻不是明智和合理的選擇。
4.python:可以實現爬蟲。 python實現和處理爬蟲語法簡單,程式碼優美,支援的模組繁多,學習成本低,具有非常強大的框架(scrapy等)且一句難以言表的好!沒有但是!
c)爬蟲的分類:根據使用場景可以分為以下兩類
1.通用爬蟲:通用爬蟲是搜尋引擎(Baidu、Google、Yahoo等)「抓取系統」的重要組成部分。主要目的是將網路上的網頁下載到本地,形成一個互聯網內容的鏡像備份。
1)搜尋引擎如何抓取網路上的網站資料?
a)入口網站主動向搜尋引擎公司提供其網站的url
b)搜尋引擎公司與DNS服務商合作,以取得網站的url
c)門戶網站主動掛靠在一些知名網站的友誼連結中
2.聚焦爬蟲:聚焦爬蟲是根據指定的需求抓取網路上指定的資料。例如:取得豆瓣上電影的名稱和影評,而不是取得整張頁面中所有的資料值。
d) robots.txt協定:
如果自己的入口網站中的指定頁面中的資料不想讓爬蟲程式爬取到的話,那麼則可以透過編寫一個robots.txt的協定檔案來約束爬蟲程式的資料爬取。 robots協議的編寫格式可以觀察淘寶網的robots(請造訪www.taobao.com/robots.txt即可)。但要注意的是,該協議只是相當於口頭的協議,並沒有使用相關技術進行強制管制,所以該協議是防君子不防小人。但是我們在學習爬蟲階段編寫的爬蟲程式可以先忽略robots協定。
e) 反爬蟲:
入口網站透過對應的策略和技術手段,防止爬蟲程式進行網站資料的爬取。
f) 反反爬蟲:
爬蟲程式透過對應的策略和技術手段,破解入口網站的反爬蟲手段,從而爬取到對應的資料。
以上是什麼是爬蟲? python網路爬蟲中概念的介紹的詳細內容。更多資訊請關注PHP中文網其他相關文章!