Python で urllib2 ライブラリをインストールする方法-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python で urllib2 ライブラリをインストールする方法

步履不停

Jul 02, 2019 pm 01:11 PM

python

Python で urllib2 ライブラリをインストールする方法

urllib2 は Python2.7 に付属するモジュールです (ダウンロードする必要はなく、インポートするだけで使用できます)。

urllib2 ライブラリの基本的な使用法

いわゆる Web ページクローリングでは、URL アドレスで指定されたネットワークリソースをネットワークストリームから読み取り、ローカルに保存します。。 Python には Web ページのクロールに使用できるライブラリが多数ありますが、まず urllib2 について学習しましょう。

urllib2 是 Python2.7 自带的模块(不需要下载，导入即可使用)
urllib2 官方文档：https://docs.python.org/2/library/urllib2.html
urllib2 源码：https://hg.python.org/cpython/file/2.7/Lib/urllib2.py

urllib2 は、python3.x

urlopen

で urllib.request に変更されました。コードの一部から始めましょう:

# urllib2_urlopen.py
 
# 导入urllib2 库
import urllib2
 
# 向指定的url发送请求，并返回服务器响应的类文件对象
response = urllib2.urlopen("http://www.baidu.com")
 
# 类文件对象支持 文件对象的操作方法，如read()方法读取文件全部内容，返回字符串
html = response.read()
 
# 打印字符串
print html

書かれた Python コードを実行すると結果が表示されます

Power@PowerMac ~$: python urllib2_urlopen.py

実際、ブラウザで Baidu のホームページを開き、右クリックして [ソースコードの表示] を選択すると、まさにそのとおりであることがわかります。先ほど印刷したものと同じです。言い換えれば、上記の 4 行のコードは、Baidu のホームページ上のすべてのコードをクロールダウンするのに役立ちました。

基本的な URL リクエストに対応する Python コードは、実際には非常に単純です。

Request

最初の例では、urlopen() のパラメータは URL アドレスです。

ただし、より複雑な操作を実行する必要がある場合は、 HTTP ヘッダーの追加などを行うには、urlopen() のパラメーターとして Request インスタンスを作成する必要があり、アクセスする必要がある URL アドレスは Request インスタンスのパラメーターとして使用されます。

urllib2_request.py

# urllib2_request.py
 
import urllib2
 
# url 作为Request()方法的参数，构造并返回一个Request对象
request = urllib2.Request("http://www.baidu.com")
 
# Request对象作为urlopen()方法的参数，发送给服务器并接收响应
response = urllib2.urlopen(request)
 
html = response.read()
 
print html

を編集します。実行結果はまったく同じです:

新建Request实例，除了必须要有 url 参数之外，还可以设置另外两个参数：
data（默认空）：是伴随 url 提交的数据（比如要post的数据），同时 HTTP 请求将从 "GET"方式 改为 "POST"方式。
headers（默认空）：是一个字典，包含了需要发送的HTTP报头的键值对。
这两个参数下面会说到。

User-Agent

ただし、これはurllib2 を使用して Web サイトにリクエストを送信するのは、確かに少し唐突です。どの家にもドアがあるのと同じように、通行人として直接侵入するのは明らかに礼儀正しくありません。さらに、サイトによってはプログラムによる訪問 (人間以外の訪問) を嫌っており、アクセス要求を拒否する場合があります。

しかし、法的アイデンティティを使用して他の人の Web サイトをリクエストする場合、それらは明らかに歓迎されるため、コードにアイデンティティ (いわゆる User-Agent ヘッダー) を追加する必要があります。

ブラウザは、インターネットの世界で認識され、許可されているアイデンティティです。クローラープログラムを実際のユーザーに近づけたい場合、最初のステップは、認識されたブラウザのふりをすることです。ブラウザーが異なれば、リクエストを送信する際の User-Agent ヘッダーも異なります。 urllib2 のデフォルトの User-Agent ヘッダーは次のとおりです: Python-urllib/x.y (x と y は Python-urllib/2.7 などの Python のメジャーバージョン番号とマイナーバージョン番号です)

#urllib2_useragent.py
 
import urllib2
 
url = "http://www.itcast.cn"
 
#IE 9.0 的 User-Agent，包含在 ua_header里
ua_header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"} 
 
#  url 连同 headers，一起构造Request请求，这个请求将附带 IE9.0 浏览器的User-Agent
request = urllib2.Request(url, headers = ua_header)
 
# 向服务器发送这个请求
response = urllib2.urlopen(request)
 
html = response.read()
print html

Addヘッダー情報の詳細

特定のヘッダーを HTTP リクエストに追加して、完全な HTTP リクエストメッセージを作成します。

Request.add_header() を呼び出して特定のヘッダーを追加/変更したり、Request.get_header() を呼び出して既存のヘッダーを表示したりできます。

特定のヘッダーを追加する

# urllib2_headers.py
 
import urllib2
 
url = "http://www.itcast.cn"
 
#IE 9.0 的 User-Agent
header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"} 
request = urllib2.Request(url, headers = header)
 
#也可以通过调用Request.add_header() 添加/修改一个特定的header
request.add_header("Connection", "keep-alive")
 
# 也可以通过调用Request.get_header()来查看header信息
# request.get_header(header_name="Connection")
 
response = urllib2.urlopen(req)
 
print response.code     #可以查看响应状态码
html = response.read()
 
print html

ユーザーエージェントをランダムに追加/変更する

# urllib2_add_headers.py
 
import urllib2
import random
 
url = "http://www.itcast.cn"
 
ua_list = [
    "Mozilla/5.0 (Windows NT 6.1; ) Apple.... ",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",
    "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ",
    "Mozilla/5.0 (Macintosh; Intel Mac OS... "
]
 
user_agent = random.choice(ua_list)
 
request = urllib2.Request(url)
 
#也可以通过调用Request.add_header() 添加/修改一个特定的header
request.add_header("User-Agent", user_agent)
 
# 第一个字母大写，后面的全部小写
request.get_header("User-agent")
 
response = urllib2.urlopen(req)
 
html = response.read()
print html

関連チュートリアルの推奨事項 : Python ビデオチュートリアル

以上がPython で urllib2 ライブラリをインストールする方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

详细讲解Python之Seaborn（数据可视化）Apr 21, 2022 pm 06:08 PM

本篇文章给大家带来了关于Python的相关知识，其中主要介绍了关于Seaborn的相关问题，包括了数据可视化处理的散点图、折线图、条形图等等内容，下面一起来看一下，希望对大家有帮助。

详细了解Python进程池与进程锁May 10, 2022 pm 06:11 PM

本篇文章给大家带来了关于Python的相关知识，其中主要介绍了关于进程池与进程锁的相关问题，包括进程池的创建模块，进程池函数等等内容，下面一起来看一下，希望对大家有帮助。

Python自动化实践之筛选简历Jun 07, 2022 pm 06:59 PM

本篇文章给大家带来了关于Python的相关知识，其中主要介绍了关于简历筛选的相关问题，包括了定义 ReadDoc 类用以读取 word 文件以及定义 search_word 函数用以筛选的相关内容，下面一起来看一下，希望对大家有帮助。

归纳总结Python标准库May 03, 2022 am 09:00 AM

本篇文章给大家带来了关于Python的相关知识，其中主要介绍了关于标准库总结的相关问题，下面一起来看一下，希望对大家有帮助。

Python数据类型详解之字符串、数字Apr 27, 2022 pm 07:27 PM

本篇文章给大家带来了关于Python的相关知识，其中主要介绍了关于数据类型之字符串、数字的相关问题，下面一起来看一下，希望对大家有帮助。

分享10款高效的VSCode插件，总有一款能够惊艳到你！！Mar 09, 2021 am 10:15 AM

VS Code的确是一款非常热门、有强大用户基础的一款开发工具。本文给大家介绍一下10款高效、好用的插件，能够让原本单薄的VS Code如虎添翼，开发效率顿时提升到一个新的阶段。

详细介绍python的numpy模块May 19, 2022 am 11:43 AM

本篇文章给大家带来了关于Python的相关知识，其中主要介绍了关于numpy模块的相关问题，Numpy是Numerical Python extensions的缩写，字面意思是Python数值计算扩展，下面一起来看一下，希望对大家有帮助。

python中文是什么意思Jun 24, 2019 pm 02:22 PM

pythn的中文意思是巨蟒、蟒蛇。1989年圣诞节期间，Guido van Rossum在家闲的没事干，为了跟朋友庆祝圣诞节，决定发明一种全新的脚本语言。他很喜欢一个肥皂剧叫Monty Python，所以便把这门语言叫做python。

See all articles

ホットAIツール

ホットツール

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。