ホームページ  >  記事  >  バックエンド開発  >  シンプルな Python Web スクレイピング アプリケーションの構築ガイド

シンプルな Python Web スクレイピング アプリケーションの構築ガイド

PHPz
PHPzオリジナル
2024-08-16 18:02:12982ブラウズ

Guide to Building a Simple Python Web Scraping Application

Python で Web データをスクレイピングするには、通常、HTTP リクエストをターゲット Web サイトに送信し、返された HTML または JSON データを解析する必要があります。以下は、リクエスト ライブラリを使用して HTTP リクエストを送信し、BeautifulSouplibrary を使用して HTML を解析する単純な Web スクレイピング アプリケーションの例です。 ‌

Python は単純な Web スクレイピング ケースを構築します

まず、requests と beautifulsoup4 ライブラリがインストールされていることを確認してください。そうでない場合は、次のコマンドを使用してインストールできます:‌

pip インストールが beautifulsoup4 をリクエスト
次に、次のような Python スクリプトを記述してネットワーク データを収集できます。

import requests 
from bs4 import BeautifulSoup 

# URL of the target website 
url = 'http://example.com' 

# Sending HTTP GET request 
response = requests.get(url) 

# Check if the request was successful 
if response.status_code == 200: 
    # Parsing HTML with BeautifulSoup 
    soup = BeautifulSoup(response.text, 'html.parser') 

    # Extract the required data, for example, extract all the titles 
    titles = soup.find_all('h1') 

    # Print title 
    for title in titles: 
        print(title.text) 
else: 
    print('Request failed,status code:', response.status_code) 

この例では、最初にリクエストと BeautifulSouplibraries をインポートしました。次に、ターゲット Web サイトの URL を定義し、requests.get() メソッドを使用して HTTP GET リクエストを送信しました。リクエストが成功した場合 (ステータス コードが 200)、BeautifulSoup を使用して返された HTML を解析し、すべての

を抽出します。タグ。通常はページのメイン タイトルが含まれます。最後に、各タイトルのテキスト内容を出力します。

実際の Web スクレイピング プロジェクトでは、ターゲット Web サイトの robots.txt ファイルのルールに準拠し、Web サイトの著作権と利用規約を尊重する必要があることに注意してください。さらに、一部の Web サイトでは、コンテンツの動的ロード、キャプチャ検証などのクローラー対策技術を使用する場合があり、より複雑な処理戦略が必要になる場合があります。

Web スクレイピングにプロキシを使用する必要があるのはなぜですか?

プロキシを使用して Web サイトをクロールすることは、IP 制限とクローラー対策メカニズムを回避する一般的な方法です。プロキシ サーバーは仲介者として機能し、リクエストをターゲット Web サイトに転送し、応答を返すことができます。これにより、ターゲット Web サイトは実際の IP アドレスではなく、プロキシ サーバーの IP アドレスのみを参照できるようになります。

プロキシを使用した Web スクレイピングの簡単な例

Python では、requestslibrary を使用してプロキシを設定できます。以下は、プロキシを使用して HTTP リクエストを送信する方法を示す簡単な例です:

import requests 

# The IP address and port provided by swiftproxy 
proxy = { 
    'http': 'http://45.58.136.104:14123', 
    'https': 'http://119.28.12.192:23529', 
} 

# URL of the target website 
url = 'http://example.com' 

# Sending requests using a proxy 
response = requests.get(url, proxies=proxy) 

# Check if the request was successful 
if response.status_code == 200: 
    print('Request successful, response content:‌', response.text) 
else: 
    print('Request failed,status code:‌', response.status_code) 

プロキシ サーバーの IP とポートを実際のプロキシ サーバーのアドレスに置き換える必要があることに注意してください。また、プロキシ サーバーが信頼でき、クロールする Web サイトをサポートしていることを確認してください。一部の Web サイトでは、既知のプロキシ サーバーからのリクエストを検出してブロックする場合があるため、プロキシ サーバーを定期的に変更するか、より高度なプロキシ サービスを使用する必要がある場合があります。

以上がシンプルな Python Web スクレイピング アプリケーションの構築ガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。