ホームページ >バックエンド開発 >Python チュートリアル >Scrapy を使用して効率的なクローラープログラムを構築する方法

Scrapy を使用して効率的なクローラープログラムを構築する方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル: 2023-08-02 14:33:13822ブラウズ

Scrapy を使用して効率的なクローラプログラムを構築する方法

情報化時代の到来に伴い、インターネット上のデータ量は増加し続けており、大量のデータを取得する需要も増加しています。。クローラーは、このニーズに対する最良のソリューションの 1 つとなっています。 Scrapy は優れた Python クローラーフレームワークとして、効率的で安定していて使いやすく、さまざまな分野で広く使用されています。この記事では、Scrapy を使用して効率的なクローラープログラムを構築する方法とコード例を紹介します。

クローラプログラムの基本構造

Scrapy のクローラプログラムは主に次のコンポーネントで構成されます:

クローラプログラム: 定義方法ページのクロール、ページからのデータの解析、リンクの追跡など。
プロジェクトパイプライン: クローラープログラムによってページから抽出されたデータを処理し、データベースへの保存やファイルへのエクスポートなどの後続の処理を実行します。
ダウンローダーミドルウェア: リクエストの送信処理とページコンテンツの取得を担当し、ユーザーエージェントの設定やプロキシ IP の切り替えなどの操作を実行できます。
スケジューラ: 取得するすべてのリクエストを管理し、特定の戦略に従ってそれらのリクエストをスケジュールする責任を負います。
ダウンローダー: 要求されたページコンテンツをダウンロードし、それをクローラープログラムに返す役割を果たします。

クローラプログラムの作成

Scrapy では、クローラプログラムを作成するために新しいクローラプロジェクトを作成する必要があります。コマンドラインで次のコマンドを実行します。

scrapy startproject myspider

これにより、「myspider」という名前のプロジェクトフォルダーが作成され、いくつかのデフォルトのファイルとフォルダーが含まれます。フォルダーに入り、新しいクローラーを作成できます。

cd myspider
scrapy genspider example example.com

これにより、「example.com」Web サイトからデータをクロールする「example」という名前のクローラーが作成されます。生成された「example_spider.py」ファイルに特定のクローラーロジックを記述することができます。

ここでは、Web サイト上のニュースの見出しとリンクをクロールする簡単な例を示します。

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example.com']
    start_urls = ['http://www.example.com/news']

    def parse(self, response):
        for news in response.xpath('//div[@class="news-item"]'):
            yield {
                'title': news.xpath('.//h2/text()').get(),
                'link': news.xpath('.//a/@href').get(),
            }
        next_page = response.xpath('//a[@class="next-page"]/@href').get()
        if next_page:
            yield response.follow(next_page, self.parse)

上記のコードでは、「ExampleSpider」という名前のクローラークラスを定義します。これには 3 つの属性が含まれています。name はクローラーの名前を表し、allowed_domains は Web サイトのクロールを許可されているドメイン名を表し、start_urlsは開始点の URL を表します。次に、Web ページのコンテンツを解析し、ニュースのタイトルとリンクを抽出し、yield を使用して結果を返す parse メソッドを書き直しました。

プロジェクトパイプラインの構成

Scrapy では、クロールされたデータをプロジェクトパイプラインを通じてパイプライン処理できます。データはデータベースに保存したり、ファイルに書き込んだり、後で処理したりできます。

プロジェクトフォルダー内の「settings.py」ファイルを開き、その中にある ITEM_PIPELINES 構成アイテムを見つけて、コメントを解除します。次に、次のコードを追加します。

ITEM_PIPELINES = {
    'myspider.pipelines.MyPipeline': 300,
}

これにより、カスタムパイプラインクラス「my Spider.pipelines.MyPipeline」が有効になり、優先順位が指定されます (数値が小さいほど優先順位が高くなります)。

次に、データを処理するパイプラインクラスを作成する必要があります。プロジェクトフォルダーに「pipelines.py」という名前のファイルを作成し、次のコードを追加します。

import json

class MyPipeline:

    def open_spider(self, spider):
        self.file = open('news.json', 'w')

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "
"
        self.file.write(line)
        return item

この例では、open_spider、close_spider、process_item の 3 つのメソッドを含む「MyPipeline」という名前のパイプラインクラスを定義します。 open_spider メソッドでは、データを保存するファイルを開きます。 close_spider メソッドでは、ファイルを閉じます。 process_item メソッドでは、データを JSON 形式に変換してファイルに書き込みます。

クローラープログラムの実行

クローラープログラムとプロジェクトパイプラインの作成が完了したら、コマンドラインで次のコマンドを実行してクローラープログラムを実行できます。

scrapy crawl example

これにより、「example」という名前のクローラーが起動され、データのクロールが開始されます。クロールされたデータは、パイプラインクラスで定義したとおりに処理されます。

上記は、Scrapy を使用して効率的なクローラプログラムを構築するための基本的なプロセスとサンプルコードです。もちろん、Scrapy は、特定のニーズに応じて調整および拡張できる他の多くの機能やオプションも提供します。この記事が、読者が Scrapy をよりよく理解して使用し、効率的なクローラープログラムを構築するのに役立つことを願っています。

以上がScrapy を使用して効率的なクローラープログラムを構築する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python 中间件 json scrapy 数据库

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：urllib.parse.unquote() 関数を使用して Python 3.x で URL をデコードする方法次の記事：urllib.parse.unquote() 関数を使用して Python 3.x で URL をデコードする方法

続きを見る

Scrapy を使用して効率的なクローラー プログラムを構築する方法

関連記事

Scrapy を使用して効率的なクローラープログラムを構築する方法