Scrapy自備爬蟲模板的資料抓取應用-Python教學-PHP中文網

首頁

後端開發

Python教學

Scrapy自備爬蟲模板的資料抓取應用

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 22, 2023 am 09:24 AM

爬蟲資料抓取scrapy

隨著網路科技的不斷發展，爬蟲技術也得到了廣泛的應用。爬蟲技術能夠自動化地抓取網路上的數據，並將其儲存在資料庫中，為數據分析和資料探勘提供了便利。 Scrapy作為Python中非常著名的爬蟲框架，自帶了一些通用的爬蟲模板，可以快速爬取目標網站上的數據，並自動保存到本地或雲端資料庫中。本文將介紹如何使用Scrapy自備的爬蟲模板進行資料抓取，以及如何在抓取過程中進行資料清洗、解析和儲存。

一、Scrapy爬蟲模板介紹

Scrapy自帶了一些爬蟲模板，包括基礎的Spider模板、CrawlSpider模板和XmlFeedSpider模板等。 Spider模板是最基本的爬蟲模板，優點在於適用範圍廣，容易上手。 CrawlSpider模板則是一種基於規則的爬蟲模板，可以快速爬取多級別鏈接，並支援自訂規則。 XmlFeedSpider範本則是適用於XML格式的爬蟲範本。使用這些模板進行資料抓取，可以大幅降低程式設計師的開發難度，並且能夠提高爬取效率。

二、Scrapy爬蟲模板應用

下面以一個實際的例子來說明如何使用Scrapy自帶的Spider模板進行資料抓取。我們將要爬取的目標網站是一個電影資訊網站，網站首頁上列出了最新的電影資訊。我們需要從這個網站上爬取電影的名稱、導演、演員、評分等信息，並將其保存到本地資料庫中。

建立Scrapy工程

首先，需要打開命令列窗口，切換到目標工作目錄下，然後輸入以下命令：

scrapy startproject movies

這個命令將會建立一個名為movies的Scrapy工程，在工程目錄下，會包含一個名為spiders的子目錄，該目錄用於放置爬蟲程式。

建立Spider範本

在工程目錄下，使用下列指令來建立一個名為movie_spider的Spider：

scrapy genspider movie_spider www.movies.com

這個指令將會自動產生一個基於Spider模板的程序，其中www.movies.com代表目標網站的網域名稱。在spiders目錄下，會出現一個名為movie_spider.py的文件，其內容如下：

import scrapy

class MovieSpider(scrapy.Spider):
    name = 'movie_spider'
    allowed_domains = ['www.movies.com']
    start_urls = ['http://www.movies.com/']

    def parse(self, response):
        pass

這是一個最基本的Spider程式。其中name表示爬蟲名稱，allowed_domains表示允許爬取的網域列表，start_urls表示起始爬取網址列表。在parse方法中，我們需要編寫資料解析和抓取的程式碼。

資料抓取與解析

我們需要編寫程式碼從response物件中抓取和解析目標網站的資料。對於剛才提到的電影資訊網站，我們可以使用XPath或CSS選擇器來定位頁面中的元素。假設電影名稱保存在頁面中的一個class為movie-name的div元素中，那麼我們可以使用下面的程式碼來提取所有的電影名稱：

def parse(self, response):
    movies = response.xpath('//div[@class="movie-name"]/text()').extract()
    for movie in movies:
        yield {'name': movie}

這裡，我們使用了XPath的語法來定位所有class為movie-name的div元素，並使用extract方法來提取元素中的文字內容。接著，我們使用for迴圈將每個電影名稱yield出來，作為生成器的輸出。

類似地，我們可以透過XPath或CSS選擇器來定位其他我們感興趣的元素。例如，導演和演員資訊可能會保存在class為director的div元素中，評分資訊可能會保存在class為rate的div元素中。

資料儲存

在Spider程式中，我們需要編寫程式碼將抓取到的資料儲存到本機或雲端資料庫。 Scrapy支援將資料保存到多種不同的資料庫中，包括MySQL、PostgreSQL、MongoDB等。

例如，我們可以使用MySQL資料庫來保存電影資訊。在spiders目錄下，我們可以建立一個名為mysql_pipeline.py的文件，其中包含以下程式碼：

import pymysql

class MysqlPipeline(object):
    def __init__(self):
        self.conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='movie_db', charset='utf8')

    def process_item(self, item, spider):
        cursor = self.conn.cursor()
        sql = "INSERT INTO movie(name, director, actors, rate) VALUES(%s, %s, %s, %s)"
        cursor.execute(sql, (item['name'], item['director'], item['actors'], item['rate']))
        self.conn.commit()

    def __del__(self):
        self.conn.close()

該程式將實作資料儲存到MySQL資料庫中，其中movie_db是資料庫名稱，movie表將包含name、director、actors、rate四個字段，用於保存電影名稱、導演、演員和評分資訊。 process_item方法用於將Spider程式中產生的item儲存到資料庫中。

為了使用mysql_pipeline.py文件，我們還需要在settings.py文件中添加以下配置：

ITEM_PIPELINES = {
    'movies.spiders.mysql_pipeline.MysqlPipeline': 300
}

這裡，'movies.spiders.mysql_pipeline.MysqlPipeline'指定了mysql_pipeline.py文件的位置和類別名稱。數字300表示資料處理的優先級，數字越小優先級越高。

執行Scrapy程式

在spiders目錄下，執行下列指令即可執行Scrapy程式：

scrapy crawl movie_spider

這個指令將會啟動名為movie_spider的爬蟲程序，開始抓取目標網站的資料並儲存到MySQL資料庫中。

三、總結

本文介紹如何使用Scrapy自備的爬蟲範本進行資料擷取，包括Spider範本、CrawlSpider範本和XmlFeedSpider範本。我們以一個實際的範例為例，說明如何使用Spider模板進行資料抓取和解析，並將結果儲存到MySQL資料庫中。使用Scrapy進行資料抓取，可以大幅提高資料收集的效率和質量，並為後續的資料分析、資料探勘等工作提供強大的支援。

以上是Scrapy自備爬蟲模板的資料抓取應用的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Python和時間：充分利用您的學習時間Apr 14, 2025 am 12:02 AM

要在有限的時間內最大化學習Python的效率，可以使用Python的datetime、time和schedule模塊。 1.datetime模塊用於記錄和規劃學習時間。 2.time模塊幫助設置學習和休息時間。 3.schedule模塊自動化安排每週學習任務。

Python：遊戲，Guis等Apr 13, 2025 am 12:14 AM

Python在遊戲和GUI開發中表現出色。 1)遊戲開發使用Pygame，提供繪圖、音頻等功能，適合創建2D遊戲。 2)GUI開發可選擇Tkinter或PyQt，Tkinter簡單易用，PyQt功能豐富，適合專業開發。

Python vs.C：申請和用例Apr 12, 2025 am 12:01 AM

Python适合数据科学、Web开发和自动化任务，而C 适用于系统编程、游戏开发和嵌入式系统。Python以简洁和强大的生态系统著称，C 则以高性能和底层控制能力闻名。

2小時的Python計劃：一種現實的方法Apr 11, 2025 am 12:04 AM

2小時內可以學會Python的基本編程概念和技能。 1.學習變量和數據類型，2.掌握控制流（條件語句和循環），3.理解函數的定義和使用，4.通過簡單示例和代碼片段快速上手Python編程。

Python：探索其主要應用程序Apr 10, 2025 am 09:41 AM

Python在web開發、數據科學、機器學習、自動化和腳本編寫等領域有廣泛應用。 1)在web開發中，Django和Flask框架簡化了開發過程。 2)數據科學和機器學習領域，NumPy、Pandas、Scikit-learn和TensorFlow庫提供了強大支持。 3)自動化和腳本編寫方面，Python適用於自動化測試和系統管理等任務。