ホームページ >バックエンド開発 >Python チュートリアル >Scrapy を学ぶ: 基本から上級まで

Scrapy を学ぶ: 基本から上級まで

PHPzオリジナル: 2024-02-19 19:07:061079ブラウズ

Scrapy インストールチュートリアル: 入門から習熟まで、具体的なコード例が必要です

はじめに:
Scrapy は、利用可能な強力な Python オープンソース Web クローラーフレームワークです。 Webページのクローリング、データの抽出、データのクリーニングや永続化などの一連のタスクに使用されます。この記事では、Scrapy のインストールプロセスを段階的に説明し、Scrapy フレームワークを使い始めてから習熟するまでに役立つ具体的なコード例を示します。

1. Scrapy をインストールする
Scrapy をインストールするには、まず Python と pip がインストールされていることを確認してください。次に、コマンドラインターミナルを開き、次のコマンドを入力してインストールします。

pip install scrapy

インストールプロセスには時間がかかる場合があります。しばらくお待ちください。権限に問題がある場合は、コマンドの前に sudo を付けてみてください。

2. Scrapy プロジェクトの作成
インストールが完了したら、Scrapy のコマンドラインツールを使用して新しい Scrapy プロジェクトを作成できます。コマンドラインターミナルで、プロジェクトを作成するディレクトリに移動し、次のコマンドを実行します。

scrapy startproject tutorial

これにより、現在のディレクトリに「tutorial」という名前の Scrapy プロジェクトフォルダが作成されます。フォルダーに入ると、次のディレクトリ構造が表示されます。

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        middlewares.py
        pipelines.py
        settings.py
        spiders/
            __init__.py

このうち、 scrapy.cfg は Scrapy プロジェクトの設定ファイルで、 tutorial フォルダーは、独自のコードフォルダーです。

3. クローラーを定義する
Scrapy では、スパイダーを使用して Web ページをクローリングし、データを抽出するためのルールを定義します。 spiders ディレクトリに新しい Python ファイルを作成し、quotes_spider.py という名前を付けます (実際のニーズに応じて名前を付けることができます)。次に、次のコードを使用して単純なクローラーを定義します。 :

import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('span small::text').get(),
            }

        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

上記のコードでは、QuotesSpider という名前のクローラーを作成しました。このうち、name 属性はクローラーの名前、start_urls 属性はクロールする最初のページの URL、parse メソッドです。クローラーのデフォルトの解析方法であり、Web ページを解析してデータを抽出するために使用されます。

4. クローラーを実行します
コマンドラインターミナルで、プロジェクトのルートディレクトリ (つまり、tutorial フォルダー) に移動し、次のコマンドを実行してクローラーを起動し、クロールを開始します。 data :

scrapy crawl quotes

クローラーは初期 URL のページのクロールを開始し、定義したルールに従ってデータを解析して抽出します。

5. データの保存
通常は、キャプチャしたデータを保存します。 Scrapy では、Item Pipeline を使用してデータをクリーンアップ、処理、保存できます。 pipelines.py ファイルに次のコードを追加します。

import json

class TutorialPipeline:
    def open_spider(self, spider):
        self.file = open('quotes.json', 'w')

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "
"
        self.file.write(line)
        return item

上記のコードでは、TutorialPipeline という名前のアイテムパイプラインを作成しました。このうち、open_spider メソッドは、クローラがファイルの初期化を開始するときに呼び出され、close_spider メソッドは、クローラが終了してファイルを閉じるときに呼び出されます。 # #このメソッドは、キャプチャされた各データ項目を処理して保存します。 6. Scrapy プロジェクトの構成

settings.py
ファイルでは、Scrapy プロジェクトのさまざまな構成を構成できます。一般的に使用される構成項目は次のとおりです:

: robots.txt プロトコルに準拠するかどうか;
:ユーザーエージェントを設定します。クローラでさまざまなブラウザをシミュレートできます。
: アイテムパイプラインを有効にして構成します。
: ダウンロードを設定します。回避すべき遅延ターゲット Web サイトに過剰な負荷を与える;

上記の手順により、Scrapy のインストールと使用が完了しました。この記事が、Scrapy フレームワークを使い始めてから熟練するまでに役立つことを願っています。 Scrapy のより高度な機能や使い方をさらに学びたい場合は、Scrapy 公式ドキュメントを参照し、実際のプロジェクトに基づいて練習と探索を行ってください。爬虫類の世界での成功を祈っています！

以上がScrapy を学ぶ: 基本から上級までの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python scrapy pip

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：pandas ライブラリをインストールするための包括的なガイド: 基本から高度まで次の記事：pandas ライブラリをインストールするための包括的なガイド: 基本から高度まで

続きを見る