BeautifulSoup と Requests を使用して Python クローラーを使用して Web ページデータをクロールする方法-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

BeautifulSoup と Requests を使用して Python クローラーを使用して Web ページデータをクロールする方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 29, 2023 pm 12:52 PM

pythonrequestsbeautifulsoup

1. はじめに

Web クローラーの実装原理は次の手順に要約できます:

HTTP リクエストの送信: Web クローラーは HTTP リクエストを送信します。ターゲット Web サイトへ (通常は GET リクエスト) Web ページのコンテンツを取得します。 Python では、リクエストライブラリを使用して HTTP リクエストを送信できます。
HTML の解析: ターゲット Web サイトから応答を受信した後、クローラーは HTML コンテンツを解析して有用な情報を抽出する必要があります。 HTML は Web ページの構造を記述するために使用されるマークアップ言語であり、一連のネストされたタグで構成されます。クローラーは、これらのタグと属性に基づいて必要なデータを見つけて抽出できます。 Python では、BeautifulSoup や lxml などのライブラリを使用して HTML を解析できます。
データ抽出: HTML を解析した後、クローラーは、事前に決定されたルールに従って必要なデータを抽出する必要があります。これらのルールは、タグ名、属性、CSS セレクター、XPath などに基づくことができます。 Python では、BeautifulSoup はタグベースと属性ベースのデータ抽出機能を提供し、lxml と cssselect は CSS セレクターと XPath を処理できます。
データストレージ: クローラーによってキャプチャされたデータは、通常、後続の処理のためにファイルまたはデータベースに保存する必要があります。 Python では、ファイル I/O 操作、csv ライブラリ、またはデータベース接続ライブラリ (sqlite3、pymysql、pymongo など) を使用して、データをローカルファイルまたはデータベースに保存できます。
自動走査: 多くの Web サイトのデータは複数のページに分散されているため、クローラーはこれらのページを自動的に走査してデータを抽出する必要があります。通常、横断プロセスには、新しい URL の発見、ページのめくりなどが含まれます。クローラーは HTML の解析中に新しい URL を探し、それらをクロール対象のキューに追加し、上記の手順を続行します。
非同期および同時実行: クローラーの効率を向上させるために、非同期および同時実行テクノロジーを使用して複数のリクエストを同時に処理できます。 Python では、マルチスレッド (スレッド化)、マルチプロセス (マルチプロセッシング)、コルーチン (asyncio) およびその他のテクノロジを使用して、同時クロールを実現できます。
クローラー対策戦略と対応: 多くの Web サイトでは、アクセス速度の制限、ユーザーエージェント、検証コードの検出などのクローラー対策戦略が採用されています。これらの戦略に対処するために、クローラはプロキシ IP を使用し、ブラウザのユーザーエージェントをシミュレートし、検証コードやその他の技術を自動的に識別する必要がある場合があります。 Python では、fake_useragent ライブラリを使用してランダムなユーザーエージェントを生成し、Selenium などのツールを使用してブラウザーの操作をシミュレートできます。

2. Web クローラーの基本概念

Web クローラーは、Web スパイダーまたは Web ロボットとも呼ばれ、Web サイトから Web ページ情報を自動的にクロールするプログラムです。インターネット。クローラーは通常、特定のルールに従って Web ページにアクセスし、有用なデータを抽出します。

3. Beautiful Soup および Requests ライブラリの紹介

Beautiful Soup: HTML および XML ドキュメントを解析するための Python ライブラリで、Web からデータを抽出する簡単な方法を提供します。ページ。
Requests: Web サイトにリクエストを送信し、応答コンテンツを取得するための、シンプルで使いやすい Python HTTP ライブラリです。

4. 対象の Web サイトを選択します

この記事では、Wikipedia のページを例として、ページ内のタイトルと段落情報を取得します。例を単純化するために、Python 言語の Wikipedia ページ (https://en.wikipedia.org/wiki/Python_(programming_ language)) をクロールします。

5. リクエストを使用して Web コンテンツを取得します

まず、Requests ライブラリをインストールします:

pip install requests

次に、Requests を使用してターゲット URL に GET リクエストを送信し、Web ページの HTML コンテンツを取得します:

import requests
 
url = "https://en.wikipedia.org/wiki/Python_(programming_language)"
response = requests.get(url)
html_content = response.text

6. Beautiful を使用します。 Web ページのコンテンツを解析するスープ

Beautiful Soup をインストールします:

pip install beautifulsoup4

次に、Beautiful Soup を使用して Web コンテンツを解析し、必要なデータを抽出します:

from bs4 import BeautifulSoup
 
soup = BeautifulSoup(html_content, "html.parser")
 
# 提取标题
title = soup.find("h2", class_="firstHeading").text
 
# 提取段落
paragraphs = soup.find_all("p")
paragraph_texts = [p.text for p in paragraphs]
 
# 打印提取到的数据
print("Title:", title)
print("Paragraphs:", paragraph_texts)

7.必要なデータを保存してください

抽出したデータをテキストファイルに保存します:

with open("wiki_python.txt", "w", encoding="utf-8") as f:
    f.write(f"Title: {title}\n")
    f.write("Paragraphs:\n")
    for p in paragraph_texts:
        f.write(p)
        f.write("\n")

以上がBeautifulSoup と Requests を使用して Python クローラーを使用して Web ページデータをクロールする方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は亿速云で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Pythonの主な目的：柔軟性と使いやすさApr 17, 2025 am 12:14 AM

Pythonの柔軟性は、マルチパラダイムサポートと動的タイプシステムに反映されていますが、使いやすさはシンプルな構文とリッチ標準ライブラリに由来しています。 1。柔軟性：オブジェクト指向、機能的および手続き的プログラミングをサポートし、動的タイプシステムは開発効率を向上させます。 2。使いやすさ：文法は自然言語に近く、標準的なライブラリは幅広い機能をカバーし、開発プロセスを簡素化します。

Python：汎用性の高いプログラミングの力Apr 17, 2025 am 12:09 AM

Pythonは、初心者から上級開発者までのすべてのニーズに適した、そのシンプルさとパワーに非常に好まれています。その汎用性は、次のことに反映されています。1）学習と使用が簡単、シンプルな構文。 2）Numpy、Pandasなどの豊富なライブラリとフレームワーク。 3）さまざまなオペレーティングシステムで実行できるクロスプラットフォームサポート。 4）作業効率を向上させるためのスクリプトおよび自動化タスクに適しています。

1日2時間でPythonを学ぶ：実用的なガイドApr 17, 2025 am 12:05 AM

はい、1日2時間でPythonを学びます。 1.合理的な学習計画を作成します。2。適切な学習リソースを選択します。3。実践を通じて学んだ知識を統合します。これらの手順は、短時間でPythonをマスターするのに役立ちます。

Python vs. C：開発者の長所と短所Apr 17, 2025 am 12:04 AM

Pythonは迅速な開発とデータ処理に適していますが、Cは高性能および基礎となる制御に適しています。 1）Pythonは、簡潔な構文を備えた使いやすく、データサイエンスやWeb開発に適しています。 2）Cは高性能で正確な制御を持ち、ゲームやシステムのプログラミングでよく使用されます。

Python：時間のコミットメントと学習ペースApr 17, 2025 am 12:03 AM

Pythonを学ぶのに必要な時間は、人によって異なり、主に以前のプログラミングの経験、学習の動機付け、学習リソースと方法、学習リズムの影響を受けます。現実的な学習目標を設定し、実用的なプロジェクトを通じて最善を尽くします。

Python：自動化、スクリプト、およびタスク管理Apr 16, 2025 am 12:14 AM

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1）自動化：OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2）スクリプトの書き込み：Psutilライブラリを使用してシステムリソースを監視します。 3）タスク管理：スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

Pythonと時間：勉強時間を最大限に活用するApr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python：ゲーム、GUIなどApr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1）ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2）GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

See all articles