在Anaconda環境下如何創建Scrapy 爬蟲框架?這篇文章將為大家介紹關於Anaconda環境下創建Scrapy爬蟲框架專案的步驟,值得一看。
Python爬蟲教學 -31-建立Scrapy 爬蟲框架專案
先說一下,這篇文章是在Anaconda 環境下,所以如果沒有安裝Anaconda 請先到官網下載安裝
Anaconda 下載地址:https://www.anaconda.com/download/
Scrapy 爬蟲框架項目的創建
0.打開【cmd】
1.進入你要使用的Anaconda 環境
這裡我們就把專案建立好了,分析一下自動產生的檔案的作用
1.環境名稱可以在【Pycharm】的【Settings】下【Project:】下找到
2.使用指令:activate 環境名,例如:
activate learn
3.進入想要存放scrapy 專案的目錄下【注意】
##4.新專案:scrapy startproject xxx專案名,例如:
scrapy startproject new_project
#5.操作截圖:
6.在檔案總管開啟該目錄,就會發現產生了好幾個檔案
7.使用Pycharm 開啟專案所在目錄就可以了
Scrapy 爬蟲框架專案的開發
0.使用Pycharm 開啟專案,截圖:
#專案的開發的大致流程:
網址spider/xxspider.py 負責分解,提取下載的資料
#1. 明確需要爬取的目標/產品:寫item. py
2.在spider 目錄下載建立python 檔案製作爬蟲:
3.儲存內容:pipelines.py
Pipeline.py 檔案
當spider 物件關閉的時候呼叫
spider 物件對開啟的時候呼叫
進行一些必要的參數初始化
spider 提取出來的item 作為參數傳入,同時傳入的還有spider
此方法必須實作
必須傳回一個Item 對象,被丟棄的item 不會被之後的pipeline
對應pipelines 檔案
爬蟲提取出資料存入item 後,item 中保存的資料需要進一步處理,例如清洗,去蟲,儲存等
Pipeline 需要處理process_item 函數
process_item
_ init _:建構子
open_spider(spider):
close_spider(spider):
Spider 目錄
對應的是資料夾spider 下的檔案
#_ init _:初始化爬蟲名稱,start _urls 清單
start_requests:產生Requests 物件交給Scrapy 下載並回傳response
parse:根據傳回的response 解析出對應的item,item 自動進入pipeline:如果需要,解析url,url自動交給requests 模組,一直循環下去
start_requests:此方法盡可能被呼叫一次,讀取start _urls 內容並啟動循環程序
name:設定爬蟲名稱
start_urls:設定開始第一批爬取的url
allow_domains:spider 允許去爬的網域清單
start_request(self):只被呼叫一次
parse:偵測編碼
##log:日誌記錄
相關推薦:
python爬蟲框架scrapy實例詳解
Scrapy爬蟲入門教學四Spider(爬蟲)
#使用Python的Scrapy框架編寫web爬蟲的簡單範例
以上是Python爬蟲之Anaconda環境下創建Scrapy爬蟲框架的詳細內容。更多資訊請關注PHP中文網其他相關文章!