ホームページ >バックエンド開発 >Python チュートリアル >Python クローラー: HTTP プロトコル、リクエストライブラリ

Python クローラー: HTTP プロトコル、リクエストライブラリ

巴扎黑オリジナル: 2017-06-23 16:25:041580ブラウズ

HTTP プロトコル:

HTTP (ハイパーテキスト転送プロトコル): ハイパーテキスト転送プロトコル。 URL は、HTTP プロトコルを通じてリソースにアクセスするためのインターネットパスです。1 つの URL が 1 つのデータリソースに対応します。

HTTP プロトコルによるリソースの操作:

Requests ライブラリは、HTTP のすべての基本的なリクエストメソッドを提供します。公式紹介:

Requests ライブラリの 6 つの主要なメソッド:

Requests ライブラリの例外:

Requests ライブラリの 2 つの重要なオブジェクト: Request (リクエスト) 、応答（対応）。 Request オブジェクトは複数のリクエストメソッドをサポートしており、Response オブジェクトには、要求されたリクエスト情報だけでなく、サーバーから返されたすべての情報が含まれています。

Response オブジェクトの属性:

その中で、r.encoding は以下を指します: ヘッダーに charset が存在しない場合、エンコーディングは ISO-8859-1 とみなされます。

r.raise_for_status() は、r.status_code が 200 に等しいかどうかを直接知ることができます。

HTTP プロトコルとリクエストライブラリの比較:

Web ページをクローリングするための共通コードフレームワーク:

1 try:2     r = requests.get(url,timeout = 30)3     r.raise_for_status()4     # 如果状态不是200，引发HTTPError异常5     r.encoding = r.apparent_encoding6     return r.text7 except:8     return '产生异常'

たとえば、PMCAFF ホームページの情報を取得します:

りー

Climb Webページの一般的なコードフレームワークを取得します: 動作環境: Mac、Python 3.6、PyCharm 2016.2

参考: 中国大学MOOCコース「Python Web Crawler and Information Extraction」

----- 以上---- -

著者: Du Wangdan、WeChat パブリックアカウント: Du Wangdan、インターネットプロダクトマネージャー。

以上がPython クローラー: HTTP プロトコル、リクエストライブラリの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：PANDAS 数据合并与重塑（join/merge篇）次の記事：Python之Excel操作

続きを見る

Python クローラー: HTTP プロトコル、リクエスト ライブラリ

関連記事

Python クローラー: HTTP プロトコル、リクエストライブラリ