ホームページ >バックエンド開発 >Python チュートリアル >ローテーションプロキシを使用した Web スクレイピング: Python リクエストと Selenium を使用した例

ローテーションプロキシを使用した Web スクレイピング: Python リクエストと Selenium を使用した例

DDDオリジナル: 2024-11-01 13:01:29762ブラウズ

Web スクレイピングにローテーションプロキシを使用することは、特に Web サイトに頻繁にアクセスする必要がある場合や、クローラー対策メカニズムをバイパスする必要がある場合に効果的な方法です。プロキシをローテーションすると、IP アドレスが自動的に変更されるため、ブロックされるリスクが軽減されます。

以下は、Python のリクエストライブラリと Web スクレイピング用の Selenium でローテーションプロキシを使用する例です。

リクエストライブラリの使用

‌1.必要なライブラリをインストールします‌:

まず、リクエストライブラリをインストールする必要があります。
‌

2. ローテーションプロキシを設定します‌:

循環プロキシサービスプロバイダーから API キーまたはプロキシリストを取得し、リクエストでそれらを構成する必要があります。

Web Scraping with Rotating Proxies: An Example with Python Requests and Selenium

3. リクエストを送信します‌:

リクエストライブラリを使用して HTTP リクエストを送信し、プロキシ経由で転送します。

サンプルコード:

import requests 
from some_rotating_proxy_service import get_proxy  # Assuming this is the function provided by your rotating proxy service 

#Get a new proxy 
proxy = get_proxy() 

# Set the proxy's HTTP and HTTPS headers (may vary depending on the proxy service's requirements) 
proxies = { 
    'http': f'http://{proxy}', 
    'https': f'https://{proxy}' 
} 

# Sending a GET request 
url = 'http://example.com' 
try: 
    response = requests.get(url, proxies=proxies) 
    # Processing Response Data 
    print(response.text) 
except requests.exceptions.ProxyError: 
    print('Proxy error occurred') 
except Exception as e: 
    print(f'An error occurred: {e}')

セレンの使用

‌1.必要なライブラリとドライバーをインストールします‌:

ブラウザの Selenium ライブラリと WebDriver (ChromeDriver など) をインストールします。

2‌.ローテーションプロキシを構成する‌:

リクエストと同様に、循環プロキシサービスプロバイダーからプロキシ情報を取得し、Selenium で設定する必要があります。

‌3.ブラウザを起動してプロキシを設定します。

Selenium を使用してブラウザを起動し、ブラウザのオプションでプロキシを設定します。

サンプルコード:

from selenium import webdriver 
from selenium.webdriver.chrome.options import Options 
from some_rotating_proxy_service import get_proxy  # Assuming this is the function provided by your rotating proxy service 

# Get a new proxy 
proxy = get_proxy() 

# Set Chrome options to use a proxy 
chrome_options = Options() 
chrome_options.add_argument(f'--proxy-server=http://{proxy}') 

# Launch Chrome browser 
driver = webdriver.Chrome(options=chrome_options) 

# Visit the website 
url = 'http://example.com' 
driver.get(url) 

# Processing web data 
# ...（For example, use driver.page_source to get the source code of a web page, or use driver to find a specific element.） 

# Close the browser 
driver.quit()

注意事項

循環プロキシサービスが信頼性が高く、頻繁な IP 変更やブロックを避けるために十分なプロキシプールを提供していることを確認してください。
ローテーションプロキシサービスの価格と使用制限に従って、スクレイピングタスクを適切に計画してください。
Selenium を使用する場合は、メモリリークやその他の問題を避けるために、ブラウザウィンドウの終了とリソースの解放の処理に注意してください。
法的紛争を避けるために、ターゲット Web サイトの robots.txt ファイルとクロール契約に従ってください。

以上がローテーションプロキシを使用した Web スクレイピング: Python リクエストと Selenium を使用した例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python Resource for using http Access

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Python でテキストファイルに書き込むときに Unicode 文字が正しく表示されるようにするにはどうすればよいですか?次の記事：Python でテキストファイルに書き込むときに Unicode 文字が正しく表示されるようにするにはどうすればよいですか?

続きを見る