Scrapy の詳細な使用法: HTML、XML、および JSON データをクロールする方法?-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Scrapy の詳細な使用法: HTML、XML、および JSON データをクロールする方法?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 22, 2023 pm 05:58 PM

xmlhtmlscrapy

Scrapy は、インターネット上のデータを迅速かつ柔軟に取得できる強力な Python クローラーフレームワークです。実際のクローリングのプロセスでは、HTML、XML、JSON などのさまざまなデータ形式に遭遇することがよくあります。この記事では、Scrapyを使用してこれら3つのデータ形式をそれぞれクロールする方法を紹介します。

1. HTML データをクロールする

Scrapy プロジェクトを作成する

まず、Scrapy プロジェクトを作成する必要があります。コマンドラインを開き、次のコマンドを入力します。

scrapy startproject myproject

このコマンドは、現在のフォルダーに myproject という Scrapy プロジェクトを作成します。

開始 URL の設定

次に、開始 URL を設定する必要があります。 myproject/spiders ディレクトリで、spider.py という名前のファイルを作成し、そのファイルを編集して、次のコードを入力します。

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def parse(self, response):
        pass

コードは、最初に Scrapy ライブラリをインポートし、次にクローラークラス MySpider を定義し、 name は myspider のスパイダー名で、開始 URL を http://example.com に設定します。最後に、解析メソッドが定義されます。 parse メソッドは、応答データを処理するためにデフォルトで Scrapy によって呼び出されます。

応答データを解析する

次に、応答データを解析する必要があります。 myproject/spiders/spider.py ファイルの編集を続けて、次のコードを追加します。

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def parse(self, response):
        title = response.xpath('//title/text()').get()
        yield {'title': title}

コードでは、response.xpath() メソッドを使用して HTML ページのタイトルを取得します。 yield を使用して、取得したタイトルを含む辞書型データを返します。

クローラーの実行

最後に、Scrapy クローラーを実行する必要があります。コマンドラインに次のコマンドを入力します。

scrapy crawl myspider -o output.json

このコマンドは、データをoutput.jsonファイルに出力します。

2. XML データのクロール

Scrapy プロジェクトの作成

同様に、最初に Scrapy プロジェクトを作成する必要があります。コマンドラインを開き、次のコマンドを入力します。

scrapy startproject myproject

このコマンドは、現在のフォルダーに myproject という Scrapy プロジェクトを作成します。

開始 URL の設定

myproject/spiders ディレクトリに、spider.py という名前のファイルを作成し、そのファイルを編集して、次のコードを入力します。

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com/xml']

    def parse(self, response):
        pass

コードでは、myspider という名前のスパイダー名を設定し、開始 URL を http://example.com/xml に設定します。

myproject/spiders/spider.py ファイルの編集を続けて、次のコードを追加します。

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com/xml']

    def parse(self, response):
        for item in response.xpath('//item'):
            yield {
                'title': item.xpath('title/text()').get(),
                'link': item.xpath('link/text()').get(),
                'desc': item.xpath('desc/text()').get(),
            }

コード内では、response.xpath() メソッドを使用して XML ページ内のデータを取得します。 for ループを使用して item タグを走査し、title、link、desc タグのテキストデータを取得し、yield を使用して辞書型データを返します。

最後に、Scrapy クローラーも実行する必要があります。コマンドラインに次のコマンドを入力します。

scrapy crawl myspider -o output.json

このコマンドは、データをoutput.jsonファイルに出力します。

3. JSON データをクロールする

同様に、Scrapy プロジェクトを作成する必要があります。コマンドラインを開き、次のコマンドを入力します。

scrapy startproject myproject

このコマンドは、現在のフォルダーに myproject という Scrapy プロジェクトを作成します。

myproject/spiders ディレクトリに、spider.py という名前のファイルを作成し、そのファイルを編集して、次のコードを入力します。

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com/json']

    def parse(self, response):
        pass

コードでは、myspider という名前のスパイダー名を設定し、開始 URL を http://example.com/json に設定します。

応答データの解析

myproject/spiders/spider.py ファイルの編集を続けて、次のコードを追加します。

import scrapy
import json

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com/json']

    def parse(self, response):
        data = json.loads(response.body)
        for item in data['items']:
            yield {
                'title': item['title'],
                'link': item['link'],
                'desc': item['desc'],
            }

コード内では、json.loads()メソッドを使用してJSON形式のデータを解析します。 for ループを使用して items 配列を走査し、各アイテムの 3 つの属性 (title、link、desc) を取得し、yield を使用して辞書型データを返します。

クローラーの実行

最後に、Scrapy クローラーも実行する必要があります。コマンドラインに次のコマンドを入力します。

scrapy crawl myspider -o output.json

このコマンドは、データをoutput.jsonファイルに出力します。

4. 概要

この記事では、Scrapy を使用して HTML、XML、JSON データをそれぞれクロールする方法を紹介しました。上記の例を通して、Scrapy の基本的な使い方を理解していただくとともに、必要に応じてさらに高度な使い方を深く学ぶことができ、クローラ技術の活用に役立てていただければ幸いです。

以上がScrapy の詳細な使用法: HTML、XML、および JSON データをクロールする方法?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonと時間：勉強時間を最大限に活用するApr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python：ゲーム、GUIなどApr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1）ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2）GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

Python vs. C：比較されたアプリケーションとユースケースApr 12, 2025 am 12:01 AM

Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

2時間のPython計画：現実的なアプローチApr 11, 2025 am 12:04 AM

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー（条件付きステートメントとループ）、3。機能の定義と使用を理解する4。

Python：主要なアプリケーションの調査Apr 10, 2025 am 09:41 AM

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1）Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2）データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3）自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。

2時間でどのくらいのPythonを学ぶことができますか？Apr 09, 2025 pm 04:33 PM

2時間以内にPythonの基本を学ぶことができます。 1。変数とデータ型を学習します。2。ステートメントやループの場合などのマスター制御構造、3。関数の定義と使用を理解します。これらは、簡単なPythonプログラムの作成を開始するのに役立ちます。

プロジェクトの基本と問題駆動型の方法で10時間以内にコンピューター初心者プログラミングの基本を教える方法は？Apr 02, 2025 am 07:18 AM

10時間以内にコンピューター初心者プログラミングの基本を教える方法は？コンピューター初心者にプログラミングの知識を教えるのに10時間しかない場合、何を教えることを選びますか...

中間の読書にどこでもfiddlerを使用するときにブラウザによって検出されないようにするにはどうすればよいですか？Apr 02, 2025 am 07:15 AM

fiddlereveryversings for the-middleの測定値を使用するときに検出されないようにする方法

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、