Python クローラーフレームワークのスクレイピーなサンプルの詳細な説明-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python クローラーフレームワークのスクレイピーなサンプルの詳細な説明

高洛峰

Oct 18, 2016 am 10:25 AM

プロジェクトの生成

Scrapy はプロジェクトを生成するツールを提供します。生成されたプロジェクトにはいくつかのファイルがプリセットされており、ユーザーはこれらのファイルに独自のコードを追加する必要があります。

コマンドラインを開いて実行します:scrapy startprojecttutorial 生成されたプロジェクトは次のような構造になります

tutorial/

scrapy.cfg

tutorial/

__init__.py

items.py

パイプライン.py

設定 .py

Spiders/

name 属性は重要です。異なるスパイダーが同じ名前を使用することはできません

start_url s はスパイダーが Web ページをクロールするための開始点であり、複数の URL を含めることができます

parse メソッドは、スパイダーが Web ページをキャプチャした後にデフォルトで呼び出されるコールバックです。独自のメソッドを定義するためにこの名前を使用することは避けてください。

スパイダーは URL のコンテンツを取得すると、parse メソッドを呼び出し、それに応答パラメータを渡します。parse メソッドでは、キャプチャされた Web ページのデータを解析できます。ページ。上記のコードは、Web ページのコンテンツをファイルに保存するだけです。

クロールを開始します

コマンドラインを開き、生成されたプロジェクトのルートディレクトリtutorial/に入力し、scrapy roll dmozを実行します。ここで、dmozはスパイダーの名前です。

Webページのコンテンツを解析する

scrapyは、Webページからデータを解析する便利な方法を提供します。それにはHtmlXPathSelectorの使用が必要です

from scrapy.spider import BaseSpider
class DmozSpider(BaseSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]
    def parse(self, response):
        filename = response.url.split("/")[-2]
        open(filename, &#39;wb&#39;).write(response.body)

HtmlXPathSelectorはXpathを使用してデータを解析します

//ul/liはすべてのULを選択することを意味しますタグ以下の li タグ

a/@href は、すべての a タグの href 属性を選択することを意味します

a/text() は、a タグのテキストを選択することを意味します

a[@href="abc"] は、href のすべての a を選択することを意味します属性は abc タグです

解析されたデータをscrapyが使用できるオブジェクトに保存すると、scrapyは自分でデータをファイルに保存することなく、これらのオブジェクトを保存するのに役立ちます。保存したいデータを記述するために使用されるいくつかのクラスを items.py に追加する必要があります

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class DmozSpider(BaseSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]
    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        sites = hxs.select(&#39;//ul/li&#39;)
        for site in sites:
            title = site.select(&#39;a/text()&#39;).extract()
            link = site.select(&#39;a/@href&#39;).extract()
            desc = site.select(&#39;text()&#39;).extract()
            print title, link, desc

コマンドラインでscrapyを実行するとき、2つのパラメータを追加して、scrapyがparseメソッドによって返された項目を出力できるようにすることができます。 json ファイル内で

scrapy roll dmoz -o items.json -t json

items.json はプロジェクトのルートディレクトリに配置されます

scrapy が Web ページ上のすべてのリンクを自動的にクロールできるようにします

上の例、scrapy start_urls 内の 2 つの URL のコンテンツのみがクロールされますが、通常、私たちが達成したいのは、scrapy が Web ページ上のすべてのリンクを自動的に検出し、これらのリンクのコンテンツをクロールすることです。これを実現するには、parse メソッドで必要なリンクを抽出し、いくつかの Request オブジェクトを構築して、Scrapy がこれらのリンクを自動的にクロールします。コードは似ています:

from scrapy.item import Item, Field
class DmozItem(Item):
   title = Field()
   link = Field()
   desc = Field()
然后在spider的parse方法中，我们把解析出来的数据保存在DomzItem对象中。
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from tutorial.items import DmozItem
class DmozSpider(BaseSpider):
   name = "dmoz"
   allowed_domains = ["dmoz.org"]
   start_urls = [
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
   ]
   def parse(self, response):
       hxs = HtmlXPathSelector(response)
       sites = hxs.select(&#39;//ul/li&#39;)
       items = []
       for site in sites:
           item = DmozItem()
           item[&#39;title&#39;] = site.select(&#39;a/text()&#39;).extract()
           item[&#39;link&#39;] = site.select(&#39;a/@href&#39;).extract()
           item[&#39;desc&#39;] = site.select(&#39;text()&#39;).extract()
           items.append(item)
       return items

parse は、リクエストリストを返すデフォルトのコールバックです。Web ページがキャプチャされると、Scrapy はこのリストに基づいて Web ページを自動的にクロールし、parse_item もリストを返します。 Scrapy はこのリストに基づいて Web ページがクロールされ、クロール後に parse_details が呼び出されます

このような作業を容易にするために、Scrapy はリンクの自動クロールを簡単に実装できる別のスパイダー基本クラスを提供します。 CrawlSpider を使用するには

class MySpider(BaseSpider):
    name = &#39;myspider&#39;
    start_urls = (
        &#39;http://example.com/page1&#39;,
        &#39;http://example.com/page2&#39;,
        )
    def parse(self, response):
        # collect `item_urls`
        for item_url in item_urls:
            yield Request(url=item_url, callback=self.parse_item)
    def parse_item(self, response):
        item = MyItem()
        # populate `item` fields
        yield Request(url=item_details_url, meta={&#39;item&#39;: item},
            callback=self.parse_details)
    def parse_details(self, response):
        item = response.meta[&#39;item&#39;]
        # populate more `item` fields
        return item

BaseSpider と比較して、新しいクラスには追加のルール属性があり、この属性には複数のルールを含めることができます。どのリンクがクロールされる必要があるかが説明されます。これは Rule クラスのドキュメントです http://doc.scrapy.org/en/latest/topics/spiders.html#scrapy.contrib.spiders.Rule

これらのルールはコールバックを含むかどうか、コールバックがない場合に指定できます。、scrapy はこれらすべてのリンクをたどるだけです。

pipelines.py の使用法

pipelines.py では、不要な項目をフィルターで除外し、項目をデータベースに保存するためのクラスを追加できます。

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
class MininovaSpider(CrawlSpider):
    name = &#39;mininova.org&#39;
    allowed_domains = [&#39;mininova.org&#39;]
    start_urls = [&#39;http://www.mininova.org/today&#39;]
    rules = [Rule(SgmlLinkExtractor(allow=[&#39;/tor/\d+&#39;])),
             Rule(SgmlLinkExtractor(allow=[&#39;/abc/\d+&#39;]), &#39;parse_torrent&#39;)]
    def parse_torrent(self, response):
        x = HtmlXPathSelector(response)
        torrent = TorrentItem()
        torrent[&#39;url&#39;] = response.url
        torrent[&#39;name&#39;] = x.select("//h1/text()").extract()
        torrent[&#39;description&#39;] = x.select("//div[@id=&#39;description&#39;]").extract()
        torrent[&#39;size&#39;] = x.select("//div[@id=&#39;info-left&#39;]/p[2]/text()[2]").extract()
        return torrent

項目が要件を満たしていない場合、例外がスローされ、項目は json ファイルに出力されません。

パイプラインを使用するには、settings.pyも変更する必要があります

行を追加します

ITEM_PIPELINES = ['dirbot.pipelines.FilterWordsPipeline']

次に、scrapy roll dmoz -o items.json -t jsonを実行します。要件を満たしていないアイテムは除外されました

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Python vs. C：比較されたアプリケーションとユースケースApr 12, 2025 am 12:01 AM

Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

2時間のPython計画：現実的なアプローチApr 11, 2025 am 12:04 AM

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー（条件付きステートメントとループ）、3。機能の定義と使用を理解する4。

Python：主要なアプリケーションの調査Apr 10, 2025 am 09:41 AM

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1）Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2）データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3）自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。