Python的爬蟲程式編寫框架Scrapy入門學習教學課程-Python教學-PHP中文網

首頁

後端開發

Python教學

Python的爬蟲程式編寫框架Scrapy入門學習教學課程

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 22, 2016 am 08:56 AM

pythonscrapy爬蟲

1. Scrapy簡介
Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架。可以應用在包括資料挖掘，資訊處理或儲存歷史資料等一系列的程序中。
其最初是為了頁面抓取 (更確切地說, 網路抓取 )所設計的，也可以應用在取得API所傳回的資料(例如 Amazon Associates Web Services ) 或通用的網路爬蟲。 Scrapy用途廣泛，可用於資料探勘、監測和自動化測試
Scrapy 使用了 Twisted非同步網路程式庫來處理網路通訊。整體架構大致如下

201672163134410.png (550×388)

Scrapy主要包括了以下組件：

（1）引擎(Scrapy): 用來處理整個系統的資料流處理, 觸發事務(框架核心)

（2）調度器(Scheduler): 用來接受引擎發過來的請求, 壓入隊列中, 並在引擎再次請求的時候返回. 可以想像成一個URL（抓取網頁的網址或者說是鏈接）的優先隊列, 由它來決定下一個要抓取的網址是什麼, 同時去除重複的網址

（3）下載器(Downloader): 用於下載網頁內容, 並將網頁內容回傳給蜘蛛(Scrapy下載器是建立在twisted這個高效的非同步模型上的)

（4）爬蟲(Spiders): 爬蟲是主要幹活的, 用於從特定的網頁中提取自己需要的資訊, 即所謂的實體(Item)。使用者也可以從中提取出連結,讓Scrapy繼續抓取下一個頁面

專案管道(Pipeline): 負責處理爬蟲從網頁中抽取的實體，主要的功能是持久化實體、驗證實體的有效性、清除不需要的資訊。當頁面被爬蟲解析後，將被傳送到專案管道，並經過幾個特定的順序處理資料。

（5）下載器中間件(Downloader Middlewares): 位於Scrapy引擎和下載器之間的框架，主要是處理Scrapy引擎與下載器之間的請求及回應。

（6）爬蟲中間件(Spider Middlewares): 介於Scrapy引擎和爬蟲之間的框架，主要工作是處理蜘蛛的響應輸入和請求輸出。

（7）調度中間件(Scheduler Middewares): 介於Scrapy引擎和調度之間的中間件，從Scrapy引擎發送到調度的請求和回應。

Scrapy運作流程大概如下：

首先，引擎從調度器中取出一個連結(URL)用於接下來的抓取
引擎把URL封裝成一個請求(Request)傳給下載器，下載器把資源下載下來，並封裝成應答包(Response)
然後，爬蟲解析Response
若是解析出實體（Item）,則交給實體管道進行進一步的處理。
若是解析出的是連結（URL）,則把URL交給Scheduler等待抓取

2. 安裝Scrapy
使用以下指令:

sudo pip install virtualenv #安装虚拟环境工具
virtualenv ENV #创建一个虚拟环境目录
source ./ENV/bin/active #激活虚拟环境
pip install Scrapy
#验证是否安装成功
pip list

#输出如下
cffi (0.8.6)
cryptography (0.6.1)
cssselect (0.9.1)
lxml (3.4.1)
pip (1.5.6)
pycparser (2.10)
pyOpenSSL (0.14)
queuelib (1.2.2)
Scrapy (0.24.4)
setuptools (3.6)
six (1.8.0)
Twisted (14.0.2)
w3lib (1.10.0)
wsgiref (0.1.2)
zope.interface (4.1.1)

更多虛擬環境的操作可以查看我的博文

3. Scrapy Tutorial
在抓取之前, 你需要新建一個Scrapy工程. 進入一個你想用來保存程式碼的目錄，然後執行：

$ scrapy startproject tutorial

這個指令會在目前目錄下建立一個新目錄 tutorial, 它的結構如下:

.
├── scrapy.cfg
└── tutorial
 ├── __init__.py
 ├── items.py
 ├── pipelines.py
 ├── settings.py
 └── spiders
  └── __init__.py

這些文件主要是：

（1）scrapy.cfg: 專案設定檔
（2）tutorial/: 專案python模組, 之後您將在此加入程式碼
（3）tutorial/items.py: 專案items檔
（4）tutorial/pipelines.py: 專案管道文件
（5）tutorial/settings.py: 專案設定檔
（6）tutorial/spiders: 放置spider的目錄

3.1. 定義Item
Items是將要裝載抓取的資料的容器，它工作方式像 python 裡面的字典，但它提供更多的保護，例如對未定義的字段填充以防止拼寫錯誤

透過建立scrapy.Item類別, 並且定義類型為 scrapy.Field 的類別屬性來宣告一個Item.
我們透過將所需的item模型化，來控制從 dmoz.org 獲得的網站數據，例如我們要獲得網站的名字，url 和網站描述，我們定義這三種屬性的領域。在 tutorial 目錄下的 items.py 檔案編輯

from scrapy.item import Item, Field


class DmozItem(Item):
 # define the fields for your item here like:
 name = Field()
 description = Field()
 url = Field()

3.2. 寫Spider
Spider 是用戶編寫的類, 用於從一個域（或域組）中抓取信息, 定義了用於下載的URL的初步列表, 如何跟踪鏈接，以及如何來解析這些網頁的內容用於提取items。

要建立一個 Spider，繼承 scrapy.Spider 基類，並確定三個主要的、強制的屬性：

name：爬虫的识别名，它必须是唯一的，在不同的爬虫中你必须定义不同的名字.
start_urls：包含了Spider在启动时进行爬取的url列表。因此，第一个被获取到的页面将是其中之一。后续的URL则从初始的URL获取到的数据中提取。我们可以利用正则表达式定义和过滤需要进行跟进的链接。
parse()：是spider的一个方法。被调用时，每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data)，提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。
这个方法负责解析返回的数据、匹配抓取的数据(解析为 item )并跟踪更多的 URL。
在 /tutorial/tutorial/spiders 目录下创建 dmoz_spider.py

import scrapy

class DmozSpider(scrapy.Spider):
 name = "dmoz"
 allowed_domains = ["dmoz.org"]
 start_urls = [
  "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
  "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
 ]

 def parse(self, response):
  filename = response.url.split("/")[-2]
  with open(filename, 'wb') as f:
   f.write(response.body)

3.3. 爬取
当前项目结构

├── scrapy.cfg
└── tutorial
 ├── __init__.py
 ├── items.py
 ├── pipelines.py
 ├── settings.py
 └── spiders
  ├── __init__.py
  └── dmoz_spider.py

到项目根目录, 然后运行命令:

$ scrapy crawl dmoz

运行结果:

2014-12-15 09:30:59+0800 [scrapy] INFO: Scrapy 0.24.4 started (bot: tutorial)
2014-12-15 09:30:59+0800 [scrapy] INFO: Optional features available: ssl, http11
2014-12-15 09:30:59+0800 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'tutorial.spiders', 'SPIDER_MODULES': ['tutorial.spiders'], 'BOT_NAME': 'tutorial'}
2014-12-15 09:30:59+0800 [scrapy] INFO: Enabled extensions: LogStats, TelnetConsole, CloseSpider, WebService, CoreStats, SpiderState
2014-12-15 09:30:59+0800 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
2014-12-15 09:30:59+0800 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2014-12-15 09:30:59+0800 [scrapy] INFO: Enabled item pipelines:
2014-12-15 09:30:59+0800 [dmoz] INFO: Spider opened
2014-12-15 09:30:59+0800 [dmoz] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2014-12-15 09:30:59+0800 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2014-12-15 09:30:59+0800 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080
2014-12-15 09:31:00+0800 [dmoz] DEBUG: Crawled (200) <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (referer: None)
2014-12-15 09:31:00+0800 [dmoz] DEBUG: Crawled (200) <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> (referer: None)
2014-12-15 09:31:00+0800 [dmoz] INFO: Closing spider (finished)
2014-12-15 09:31:00+0800 [dmoz] INFO: Dumping Scrapy stats:
 {'downloader/request_bytes': 516,
  'downloader/request_count': 2,
  'downloader/request_method_count/GET': 2,
  'downloader/response_bytes': 16338,
  'downloader/response_count': 2,
  'downloader/response_status_count/200': 2,
  'finish_reason': 'finished',
  'finish_time': datetime.datetime(2014, 12, 15, 1, 31, 0, 666214),
  'log_count/DEBUG': 4,
  'log_count/INFO': 7,
  'response_received_count': 2,
  'scheduler/dequeued': 2,
  'scheduler/dequeued/memory': 2,
  'scheduler/enqueued': 2,
  'scheduler/enqueued/memory': 2,
  'start_time': datetime.datetime(2014, 12, 15, 1, 30, 59, 533207)}
2014-12-15 09:31:00+0800 [dmoz] INFO: Spider closed (finished)

3.4. 提取Items
3.4.1. 介绍Selector
从网页中提取数据有很多方法。Scrapy使用了一种基于 XPath 或者 CSS 表达式机制： Scrapy Selectors

出XPath表达式的例子及对应的含义:

/html/head/title: 选择HTML文档中标签内的元素
/html/head/title/text(): 选择元素内的文本
//td: 选择所有的元素
//div[@class="mine"]: 选择所有具有class="mine" 属性的 div 元素

等多强大的功能使用可以查看XPath tutorial

为了方便使用 XPaths，Scrapy 提供 Selector 类，有四种方法 :

xpath()：返回selectors列表, 每一个selector表示一个xpath参数表达式选择的节点.
css() : 返回selectors列表, 每一个selector表示CSS参数表达式选择的节点
extract()：返回一个unicode字符串，该字符串为XPath选择器返回的数据
re()：返回unicode字符串列表，字符串作为参数由正则表达式提取出来

3.4.2. 取出数据

首先使用谷歌浏览器开发者工具, 查看网站源码, 来看自己需要取出的数据形式(这种方法比较麻烦), 更简单的方法是直接对感兴趣的东西右键审查元素, 可以直接查看网站源码

在查看网站源码后, 网站信息在第二个

<ul class="directory-url" style="margin-left:0;">

 <li><a href="http://www.pearsonhighered.com/educator/academic/product/0,,0130260363,00%2Ben-USS_01DBC.html" class="listinglink">Core Python Programming</a> 
- By Wesley J. Chun; Prentice Hall PTR, 2001, ISBN 0130260363. For experienced developers to improve extant skills; professional level examples. Starts by introducing syntax, objects, error handling, functions, classes, built-ins. [Prentice Hall]
<div class="flag"><a href="/public/flag&#63;cat=Computers%2FProgramming%2FLanguages%2FPython%2FBooks&url=http%3A%2F%2Fwww.pearsonhighered.com%2Feducator%2Facademic%2Fproduct%2F0%2C%2C0130260363%2C00%252Ben-USS_01DBC.html"><img src="/static/imghwm/default1.png"  data-src="/img/flag.png"  class="lazy" alt="Python的爬蟲程式編寫框架Scrapy入門學習教學課程" title="report an issue with this listing"></a></div>
</li>
...省略部分...
</ul>

那么就可以通过一下方式进行提取数据

#通过如下命令选择每个在网站中的 <li> 元素:
sel.xpath('//ul/li')

#网站描述:
sel.xpath('//ul/li/text()').extract()

#网站标题:
sel.xpath('//ul/li/a/text()').extract()

#网站链接:
sel.xpath('//ul/li/a/@href').extract()

如前所述，每个 xpath() 调用返回一个 selectors 列表，所以我们可以结合 xpath() 去挖掘更深的节点。我们将会用到这些特性，所以:

for sel in response.xpath('//ul/li')
 title = sel.xpath('a/text()').extract()
 link = sel.xpath('a/@href').extract()
 desc = sel.xpath('text()').extract()
 print title, link, desc

在已有的爬虫文件中修改代码

import scrapy

class DmozSpider(scrapy.Spider):
 name = "dmoz"
 allowed_domains = ["dmoz.org"]
 start_urls = [
  "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
  "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
 ]

 def parse(self, response):
  for sel in response.xpath('//ul/li'):
   title = sel.xpath('a/text()').extract()
   link = sel.xpath('a/@href').extract()
   desc = sel.xpath('text()').extract()
   print title, link, desc

3.4.3. 使用item
Item对象是自定义的python字典,可以使用标准的字典语法来获取到其每个字段的值(字段即是我们之前用Field赋值的属性)

>>> item = DmozItem()
>>> item['title'] = 'Example title'
>>> item['title']
'Example title'

一般来说，Spider将会将爬取到的数据以 Item 对象返回, 最后修改爬虫类，使用 Item 来保存数据，代码如下

from scrapy.spider import Spider
from scrapy.selector import Selector
from tutorial.items import DmozItem


class DmozSpider(Spider):
 name = "dmoz"
 allowed_domains = ["dmoz.org"]
 start_urls = [
  "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
  "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/",
 ]

 def parse(self, response):
  sel = Selector(response)
  sites = sel.xpath('//ul[@class="directory-url"]/li')
  items = []

  for site in sites:
   item = DmozItem()
   item['name'] = site.xpath('a/text()').extract()
   item['url'] = site.xpath('a/@href').extract()
   item['description'] = site.xpath('text()').re('-\s[^\n]*\\r')
   items.append(item)
  return items

3.5. 使用Item Pipeline
当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理。
每个item pipeline组件(有时称之为ItemPipeline)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline，或是被丢弃而不再进行处理。
以下是item pipeline的一些典型应用：

清理HTML数据
验证爬取的数据(检查item包含某些字段)
查重(并丢弃)
将爬取结果保存，如保存到数据库、XML、JSON等文件中

编写你自己的item pipeline很简单，每个item pipeline组件是一个独立的Python类，同时必须实现以下方法:

（1）process_item(item, spider) #每个item pipeline组件都需要调用该方法，这个方法必须返回一个 Item (或任何继承类)对象，或是抛出 DropItem异常，被丢弃的item将不会被之后的pipeline组件所处理。

#参数:

item: 由 parse 方法返回的 Item 对象(Item对象)

spider: 抓取到这个 Item 对象对应的爬虫对象(Spider对象)

（2）open_spider(spider) #当spider被开启时，这个方法被调用。

#参数:

spider : (Spider object) – 被开启的spider

（3）close_spider(spider) #当spider被关闭时，这个方法被调用，可以再爬虫关闭后进行相应的数据处理。

#参数:

spider : (Spider object) – 被关闭的spider

为JSON文件编写一个items

from scrapy.exceptions import DropItem

class TutorialPipeline(object):

 # put all words in lowercase
 words_to_filter = ['politics', 'religion']

 def process_item(self, item, spider):
  for word in self.words_to_filter:
   if word in unicode(item['description']).lower():
    raise DropItem("Contains forbidden word: %s" % word)
  else:
   return item

在 settings.py 中设置ITEM_PIPELINES激活item pipeline，其默认为[]

ITEM_PIPELINES = {'tutorial.pipelines.FilterWordsPipeline': 1}

3.6. 存储数据
使用下面的命令存储为json文件格式

scrapy crawl dmoz -o items.json

4.示例
4.1最简单的spider（默认的Spider）
用实例属性start_urls中的URL构造Request对象
框架负责执行request
将request返回的response对象传递给parse方法做分析

简化后的源码：

class Spider(object_ref):
 """Base class for scrapy spiders. All spiders must inherit from this
 class.
 """
 
 name = None
 
 def __init__(self, name=None, **kwargs):
  if name is not None:
   self.name = name
  elif not getattr(self, 'name', None):
   raise ValueError("%s must have a name" % type(self).__name__)
  self.__dict__.update(kwargs)
  if not hasattr(self, 'start_urls'):
   self.start_urls = []
 
 def start_requests(self):
  for url in self.start_urls:
   yield self.make_requests_from_url(url)
 
 def make_requests_from_url(self, url):
  return Request(url, dont_filter=True)
 
 def parse(self, response):
  raise NotImplementedError
 
 
BaseSpider = create_deprecated_class('BaseSpider', Spider)

一个回调函数返回多个request的例子

import scrapyfrom myproject.items import MyItemclass MySpider(scrapy.Spider):
 name = 'example.com'
 allowed_domains = ['example.com']
 start_urls = [
  'http://www.example.com/1.html',
  'http://www.example.com/2.html',
  'http://www.example.com/3.html',
 ]
 
 def parse(self, response):
  sel = scrapy.Selector(response)
  for h3 in response.xpath('//h3').extract():
   yield MyItem(title=h3)
 
  for url in response.xpath('//a/@href').extract():
   yield scrapy.Request(url, callback=self.parse)

构造一个Request对象只需两个参数： URL和回调函数

4.2CrawlSpider
通常我们需要在spider中决定：哪些网页上的链接需要跟进，哪些网页到此为止，无需跟进里面的链接。CrawlSpider为我们提供了有用的抽象——Rule，使这类爬取任务变得简单。你只需在rule中告诉scrapy,哪些是需要跟进的。
回忆一下我们爬行mininova网站的spider.

class MininovaSpider(CrawlSpider):
 name = 'mininova'
 allowed_domains = ['mininova.org']
 start_urls = ['http://www.mininova.org/yesterday']
 rules = [Rule(LinkExtractor(allow=['/tor/\d+']), 'parse_torrent')]
 
 def parse_torrent(self, response):
  torrent = TorrentItem()
  torrent['url'] = response.url
  torrent['name'] = response.xpath("//h1/text()").extract()
  torrent['description'] = response.xpath("//div[@id='description']").extract()
  torrent['size'] = response.xpath("//div[@id='specifications']/p[2]/text()[2]").extract()
  return torrent

上面代码中 rules的含义是：匹配/tor/\d+的URL返回的内容，交给parse_torrent处理，并且不再跟进response上的URL。
官方文档中也有个例子：

 rules = (
  # 提取匹配 'category.php' (但不匹配 'subsection.php') 的链接并跟进链接(没有callback意味着follow默认为True)
  Rule(LinkExtractor(allow=('category\.php', ), deny=('subsection\.php', ))),
 
  # 提取匹配 'item.php' 的链接并使用spider的parse_item方法进行分析
  Rule(LinkExtractor(allow=('item\.php', )), callback='parse_item'),
 )

除了Spider和CrawlSpider外，还有XMLFeedSpider, CSVFeedSpider, SitemapSpider

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Python與C：學習曲線和易用性Apr 19, 2025 am 12:20 AM

Python更易學且易用，C 則更強大但複雜。 1.Python語法簡潔，適合初學者，動態類型和自動內存管理使其易用，但可能導致運行時錯誤。 2.C 提供低級控制和高級特性，適合高性能應用，但學習門檻高，需手動管理內存和類型安全。

Python vs. C：內存管理和控制Apr 19, 2025 am 12:17 AM

Python和C 在内存管理和控制方面的差异显著。1.Python使用自动内存管理，基于引用计数和垃圾回收，简化了程序员的工作。2.C 则要求手动管理内存，提供更多控制权但增加了复杂性和出错风险。选择哪种语言应基于项目需求和团队技术栈。

科學計算的Python：詳細的外觀Apr 19, 2025 am 12:15 AM

Python在科學計算中的應用包括數據分析、機器學習、數值模擬和可視化。 1.Numpy提供高效的多維數組和數學函數。 2.SciPy擴展Numpy功能，提供優化和線性代數工具。 3.Pandas用於數據處理和分析。 4.Matplotlib用於生成各種圖表和可視化結果。

Python和C：找到合適的工具Apr 19, 2025 am 12:04 AM

選擇Python還是C 取決於項目需求：1)Python適合快速開發、數據科學和腳本編寫，因其簡潔語法和豐富庫；2)C 適用於需要高性能和底層控制的場景，如係統編程和遊戲開發，因其編譯型和手動內存管理。

數據科學和機器學習的PythonApr 19, 2025 am 12:02 AM

Python在數據科學和機器學習中的應用廣泛，主要依賴於其簡潔性和強大的庫生態系統。 1）Pandas用於數據處理和分析，2）Numpy提供高效的數值計算，3）Scikit-learn用於機器學習模型構建和優化，這些庫讓Python成為數據科學和機器學習的理想工具。

學習Python：2小時的每日學習是否足夠？Apr 18, 2025 am 12:22 AM

每天學習Python兩個小時是否足夠？這取決於你的目標和學習方法。 1)制定清晰的學習計劃，2)選擇合適的學習資源和方法，3)動手實踐和復習鞏固，可以在這段時間內逐步掌握Python的基本知識和高級功能。

Web開發的Python：關鍵應用程序Apr 18, 2025 am 12:20 AM

Python在Web開發中的關鍵應用包括使用Django和Flask框架、API開發、數據分析與可視化、機器學習與AI、以及性能優化。 1.Django和Flask框架：Django適合快速開發複雜應用，Flask適用於小型或高度自定義項目。 2.API開發：使用Flask或DjangoRESTFramework構建RESTfulAPI。 3.數據分析與可視化：利用Python處理數據並通過Web界面展示。 4.機器學習與AI：Python用於構建智能Web應用。 5.性能優化：通過異步編程、緩存和代碼優