爬蟲,被稱為網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者,是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本,主要用於搜索引擎,它將一個網站的所有內容與連結進行閱讀,並建立相關的全文索引到資料庫中,然後跳到另一個網站。傳統爬蟲從一個或若干初始網頁的URL開始,取得初始網頁上的URL,再不斷從目前頁面上抽取新的URL放入佇列,直到滿足系統的一定停止條件。
學習之前的準備
#1、一顆熱愛學習
2、不屈不撓的心一台有鍵盤的電腦(什麼系統都行。我用的os x,所以範例會以此為準)
#3、html相關的一些前段知識。不需要精通,能懂一點就夠! Python的基礎語法知識 。
具體的學習路線
總體分為三個大面向:
1、簡單的定向腳本爬蟲(request -- - bs4 --- re)
2、大型框架式爬蟲(Scrapy框架為主)
3、瀏覽器模擬爬蟲(Mechanize模擬和Selenium 模擬)
#具體步驟:
1、Beautiful Soup
requests庫的安裝與使用,安裝beautiful soup 爬蟲環境,beautiful soup 的解析器,re庫正則表達式的使用,bs4 爬蟲實踐。取得百度貼吧的內容bs4 爬蟲實踐,取得雙色球中獎資訊bs4 爬蟲實踐, 取得起點小說資訊bs4 爬蟲實踐,取得電影資訊bs4 爬蟲實踐。取得悅音台榜單
2、Scrapy 爬蟲框架
安裝Scrapy,Scrapy中的選擇器Xpath和CSSScrapy 爬蟲實踐,今日影視Scrapy 爬蟲實踐,天氣預報Scrapy 爬蟲實踐,獲取代理Scrapy 爬蟲實踐,糗事百科Scrapy 爬蟲實踐, 爬蟲相關攻防(代理池相關)
3、瀏覽器模擬爬蟲
Mechanize模組的安裝與使用,利用Mechanize獲取樂音台公告,Selenium模組的安裝與使用,瀏覽器的選擇PhantomJS,Selenium & PhantomJS 實踐,獲取代理;Selenium & PhantomJS 實踐,漫畫爬蟲。
以上是python爬蟲要學什麼的詳細內容。更多資訊請關注PHP中文網其他相關文章!