首頁  >  文章  >  後端開發  >  python爬蟲要學什麼

python爬蟲要學什麼

silencement
silencement原創
2019-05-16 18:41:566481瀏覽

爬蟲,被稱為網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者,是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本,主要用於搜索引擎,它將一個網站的所有內容與連結進行閱讀,並建立相關的全文索引到資料庫中,然後跳到另一個網站。傳統爬蟲從一個或若干初始網頁的URL開始,取得初始網頁上的URL,再不斷從目前頁面上抽取新的URL放入佇列,直到滿足系統的一定停止條件。

python爬蟲要學什麼

學習之前的準備

#1、一顆熱愛學習

2、不屈不撓的心一台有鍵盤的電腦(什麼系統都行。我用的os x,所以範例會以此為準)

#3、html相關的一些前段知識。不需要精通,能懂一點就夠! Python的基礎語法知識 。

具體的學習路線

總體分為三個大面向:

1、簡單的定向腳本爬蟲(request -- - bs4 --- re)

2、大型框架式爬蟲(Scrapy框架為主)

3、瀏覽器模擬爬蟲(Mechanize模擬和Selenium 模擬)

#具體步驟:

1、Beautiful Soup 

requests庫的安裝與使用,安裝beautiful soup 爬蟲環境,beautiful soup 的解析器,re庫正則表達式的使用,bs4 爬蟲實踐。取得百度貼吧的內容bs4 爬蟲實踐,取得雙色球中獎資訊bs4 爬蟲實踐, 取得起點小說資訊bs4 爬蟲實踐,取得電影資訊bs4 爬蟲實踐。取得悅音台榜單

2、Scrapy 爬蟲框架

安裝Scrapy,Scrapy中的選擇器Xpath和CSSScrapy 爬蟲實踐,今日影視Scrapy 爬蟲實踐,天氣預報Scrapy 爬蟲實踐,獲取代理Scrapy 爬蟲實踐,糗事百科Scrapy 爬蟲實踐, 爬蟲相關攻防(代理池相關)

3、瀏覽器模擬爬蟲

Mechanize模組的安裝與使用,利用Mechanize獲取樂音台公告,Selenium模組的安裝與使用,瀏覽器的選擇PhantomJS,Selenium & PhantomJS 實踐,獲取代理;Selenium & PhantomJS 實踐,漫畫爬蟲。

以上是python爬蟲要學什麼的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn