前面十章爬蟲筆記陸陸續續記錄了一些簡單的Python爬蟲知識,
用來解決簡單的貼吧下載,績點運算自然不在話下。
不過要想批量下載大量的內容,比如知乎的所有的問答,那便顯得游刃不有餘了點。
於是乎,爬蟲框架Scrapy就這樣出場了!
Scrapy = Scrach+Python,Scrach這個字是抓取的意思,
暫且可以叫它:小抓抓吧。
小抓抓的官網地址:點我點我。
那麼下面來簡單的示範一下小抓抓Scrapy的安裝流程。
具體流程參考:官網教學
友情提醒:一定要按照Python的版本下載,要不然安裝的時候會提醒找不到Python。建議大家安裝32位是因為有些版本的必備軟體64位元不好找。
1.安裝Python(建議32位)
建議安裝Python2.7.x,3.x貌似還不支援。
安裝完了記得配置環境,將python目錄和python目錄下的Scripts目錄加入到系統環境變數的Path。
在cmd中輸入python如果出現版本資訊說明配置完畢。
2.安裝lxml
lxml是一種使用 Python 編寫的函式庫,可以快速且彈性地處理 XML。點這裡選擇對應的Python版本安裝。
3.安裝setuptools
用來安裝egg文件,點這裡下載python2.7的對應版本的setuptools。
4.安裝zope.interface
可以使用第三步下載的setuptools來安裝egg文件,現在也有exe版本,點這裡下載。
5.安裝Twisted
Twisted是用Python實現的基於事件驅動的網路引擎框架,點擊這裡下載。
6.安裝pyOpenSSL
pyOpenSSL是Python的OpenSSL接口,點這裡下載。
7.安裝win32py
提供win32api,點這裡下載
8.安裝Scrapy
8.安裝Scrapy
8.安裝Scrapy
8.安裝Scrapy
8.安裝Scrapy