ホームページ  >  記事  >  バックエンド開発  >  Webスクレイピング用にPython urllib2でカスタムユーザーエージェントを設定する方法?

Webスクレイピング用にPython urllib2でカスタムユーザーエージェントを設定する方法?

Patricia Arquette
Patricia Arquetteオリジナル
2024-11-01 08:54:02430ブラウズ

How to Set Custom User Agents in Python urllib2 for Web Scraping?

urllib2 でのユーザー エージェントの設定

Web スクレイピングに urllib2.urlopen を使用する場合、通常、デフォルトのユーザー エージェントはPython パッケージ名。 Web サイトはユーザー エージェントに基づいて制限を強制する可能性があるため、これは必ずしも望ましいとは限りません。ユーザー エージェントを変更するには、カスタム urllib2 オープナーを利用できます。

Python 2.x では、urllib2.build_opener を使用して新しいオープナーを作成できます。ユーザーエージェントを含むカスタムヘッダー。次のコード スニペットは、ユーザー エージェントを Mozilla に変更する方法を示しています。

opener = urllib2.build_opener()
opener.addheaders = [('User-Agent', 'Mozilla/5.0')]
response = opener.open('http://www.stackoverflow.com')

Python 3 では、urllib2.build_opener に相当するものは urllib.request.build_opener。同じコード構造を使用して、Python 3 でカスタム ユーザー エージェントを設定することもできます。

以上がWebスクレイピング用にPython urllib2でカスタムユーザーエージェントを設定する方法?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。