Python爬蟲之Anaconda環境下創建Scrapy爬蟲框架-Python教學-PHP中文網

首頁

後端開發

Python教學

Python爬蟲之Anaconda環境下創建Scrapy爬蟲框架

不言

Sep 07, 2018 pm 03:38 PM

python爬蟲

在Anaconda環境下如何創建Scrapy 爬蟲框架？這篇文章將為大家介紹關於Anaconda環境下創建Scrapy爬蟲框架專案的步驟，值得一看。

Python爬蟲教學 -31-建立Scrapy 爬蟲框架專案

先說一下，這篇文章是在Anaconda 環境下，所以如果沒有安裝Anaconda 請先到官網下載安裝

Anaconda 下載地址：https://www.anaconda.com/download/

Scrapy 爬蟲框架項目的創建

0.打開【cmd】

1.進入你要使用的Anaconda 環境

這裡我們就把專案建立好了，分析一下自動產生的檔案的作用

1.環境名稱可以在【Pycharm】的【Settings】下【Project：】下找到

Python爬蟲之Anaconda環境下創建Scrapy爬蟲框架

2.使用指令：activate 環境名，例如：

activate learn

3.進入想要存放scrapy 專案的目錄下【注意】

##4.新專案：scrapy startproject xxx專案名，例如：

scrapy startproject new_project

#5.操作截圖：

Python爬蟲之Anaconda環境下創建Scrapy爬蟲框架

6.在檔案總管開啟該目錄，就會發現產生了好幾個檔案

Python爬蟲之Anaconda環境下創建Scrapy爬蟲框架

7.使用Pycharm 開啟專案所在目錄就可以了

Scrapy 爬蟲框架專案的開發

0.使用Pycharm 開啟專案，截圖：

Python爬蟲之Anaconda環境下創建Scrapy爬蟲框架

#專案的開發的大致流程：

網址spider/xxspider.py 負責分解，提取下載的資料

#1. 明確需要爬取的目標/產品：寫item. py

2.在spider 目錄下載建立python 檔案製作爬蟲：

3.儲存內容：pipelines.py

Pipeline.py 檔案

當spider 物件關閉的時候呼叫

spider 物件對開啟的時候呼叫

進行一些必要的參數初始化

spider 提取出來的item 作為參數傳入，同時傳入的還有spider

此方法必須實作

必須傳回一個Item 對象，被丟棄的item 不會被之後的pipeline

對應pipelines 檔案

爬蟲提取出資料存入item 後，item 中保存的資料需要進一步處理，例如清洗，去蟲，儲存等

Pipeline 需要處理process_item 函數

process_item

_ init _：建構子

open_spider(spider):

close_spider(spider):

Spider 目錄

對應的是資料夾spider 下的檔案

#_ init _：初始化爬蟲名稱，start _urls 清單

start_requests：產生Requests 物件交給Scrapy 下載並回傳response

parse：根據傳回的response 解析出對應的item，item 自動進入pipeline：如果需要，解析url，url自動交給requests 模組，一直循環下去

start_requests：此方法盡可能被呼叫一次，讀取start _urls 內容並啟動循環程序

name：設定爬蟲名稱

start_urls：設定開始第一批爬取的url

allow_domains：spider 允許去爬的網域清單

start_request(self)：只被呼叫一次

parse：偵測編碼

##log：日誌記錄

相關推薦：

python爬蟲框架scrapy實例詳解

Scrapy爬蟲入門教學四Spider（爬蟲）

#使用Python的Scrapy框架編寫web爬蟲的簡單範例

以上是Python爬蟲之Anaconda環境下創建Scrapy爬蟲框架的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

您如何切成python陣列？May 01, 2025 am 12:18 AM

Python列表切片的基本語法是list[start:stop:step]。 1.start是包含的第一個元素索引，2.stop是排除的第一個元素索引，3.step決定元素之間的步長。切片不僅用於提取數據，還可以修改和反轉列表。

在什麼情況下，列表的表現比數組表現更好？May 01, 2025 am 12:06 AM

ListSoutPerformarRaysin：1）DynamicsizicsizingandFrequentInsertions/刪除，2）儲存的二聚體和3）MemoryFeliceFiceForceforseforsparsedata，butmayhaveslightperformancecostsinclentoperations。

如何將Python數組轉換為Python列表？May 01, 2025 am 12:05 AM

toConvertapythonarraytoalist，usEthelist（）constructororageneratorexpression.1）intimpthearraymoduleandcreateanArray.2）USELIST（ARR）或[XFORXINARR] to ConconverTittoalist，請考慮performorefformanceandmemoryfformanceandmemoryfformienceforlargedAtasetset。

當Python中存在列表時，使用數組的目的是什麼？May 01, 2025 am 12:04 AM

choosearraysoverlistsinpythonforbetterperformanceandmemoryfliceSpecificScenarios.1）largenumericaldatasets：arraysreducememoryusage.2）績效 - 臨界雜貨：arraysoffersoffersOffersOffersOffersPoostSfoostSforsssfortasssfortaskslikeappensearch orearch.3）testessenforcety：arraysenforce：arraysenforc