Python で Web データをスクレイピングするには、通常、HTTP リクエストをターゲット Web サイトに送信し、返された HTML または JSON データを解析する必要があります。以下は、リクエスト ライブラリを使用して HTTP リクエストを送信し、BeautifulSouplibrary を使用して HTML を解析する単純な Web スクレイピング アプリケーションの例です。
まず、requests と beautifulsoup4 ライブラリがインストールされていることを確認してください。そうでない場合は、次のコマンドを使用してインストールできます:
pip インストールが beautifulsoup4 をリクエスト
次に、次のような Python スクリプトを記述してネットワーク データを収集できます。
import requests from bs4 import BeautifulSoup # URL of the target website url = 'http://example.com' # Sending HTTP GET request response = requests.get(url) # Check if the request was successful if response.status_code == 200: # Parsing HTML with BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser') # Extract the required data, for example, extract all the titles titles = soup.find_all('h1') # Print title for title in titles: print(title.text) else: print('Request failed,status code:', response.status_code)
この例では、最初にリクエストと BeautifulSouplibraries をインポートしました。次に、ターゲット Web サイトの URL を定義し、requests.get() メソッドを使用して HTTP GET リクエストを送信しました。リクエストが成功した場合 (ステータス コードが 200)、BeautifulSoup を使用して返された HTML を解析し、すべての
実際の Web スクレイピング プロジェクトでは、ターゲット Web サイトの robots.txt ファイルのルールに準拠し、Web サイトの著作権と利用規約を尊重する必要があることに注意してください。さらに、一部の Web サイトでは、コンテンツの動的ロード、キャプチャ検証などのクローラー対策技術を使用する場合があり、より複雑な処理戦略が必要になる場合があります。
プロキシを使用して Web サイトをクロールすることは、IP 制限とクローラー対策メカニズムを回避する一般的な方法です。プロキシ サーバーは仲介者として機能し、リクエストをターゲット Web サイトに転送し、応答を返すことができます。これにより、ターゲット Web サイトは実際の IP アドレスではなく、プロキシ サーバーの IP アドレスのみを参照できるようになります。
Python では、requestslibrary を使用してプロキシを設定できます。以下は、プロキシを使用して HTTP リクエストを送信する方法を示す簡単な例です:
import requests # The IP address and port provided by swiftproxy proxy = { 'http': 'http://45.58.136.104:14123', 'https': 'http://119.28.12.192:23529', } # URL of the target website url = 'http://example.com' # Sending requests using a proxy response = requests.get(url, proxies=proxy) # Check if the request was successful if response.status_code == 200: print('Request successful, response content:', response.text) else: print('Request failed,status code:', response.status_code)
プロキシ サーバーの IP とポートを実際のプロキシ サーバーのアドレスに置き換える必要があることに注意してください。また、プロキシ サーバーが信頼でき、クロールする Web サイトをサポートしていることを確認してください。一部の Web サイトでは、既知のプロキシ サーバーからのリクエストを検出してブロックする場合があるため、プロキシ サーバーを定期的に変更するか、より高度なプロキシ サービスを使用する必要がある場合があります。
以上がシンプルな Python Web スクレイピング アプリケーションの構築ガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。