python爬蟲入門（1）--快速理解HTTP協定-Python教學-PHP中文網

首頁

後端開發

Python教學

python爬蟲入門（1）--快速理解HTTP協定

零下一度

May 27, 2017 am 11:36 AM

python

http協定是網際網路裡面最重要，最基礎的協定之一，我們的爬蟲需要經常和http協定打交道。以下這篇文章主要給大家介紹了關於 python爬蟲入門之快速理解HTTP協議的相關資料，文中介紹的非常詳細，需要的朋友可以參考借鑒，下面來一起看看吧。

前言

爬蟲的基本原理是模擬瀏覽器進行HTTP 請求，並理解HTTP 協定是寫爬蟲的必備基礎，招募網站的爬蟲崗位也赫然寫著熟練HTTP協議規範，寫爬蟲還不得不先從HTTP協議開始講起

HTTP協議是什麼？

你瀏覽的每一個網頁都是基於HTTP 協定呈現的，HTTP 協定是網路應用中，客戶端（瀏覽器）與伺服器之間進行資料通訊的一種協定。協定中規定了客戶端應該按照什麼格式給伺服器發送請求，同時也約定了服務端回傳的回應結果應該是什麼格式。

只要大家都按照協定規定方式發起請求和回傳回應結果，任何人都可以基於HTTP協定實作自己的Web客戶端（瀏覽器、爬蟲）和Web伺服器（Nginx、Apache等）。

HTTP 協定本身是非常簡單的。它規定，只能由客戶端主動發起請求，伺服器接收請求處理後回傳回應結果，同時 HTTP 是無狀態的協議，協定本身不記錄客戶端的歷史請求記錄。

HTTP 協定是如何規定請求格式和回應格式的呢？換言之，客戶端按照什麼格式才能正確發起 HTTP 請求呢？服務端按照什麼格式回傳回應結果客戶端才能正確解析？

HTTP 請求

HTTP 請求由3部分組成，分別是請求行、請求首部、請求體，首部和請求體是可選的，並不是每個請求都需要的。

請求行

#請求行是每個請求必不可少的部分，它由3部分組成，分別是請求方法（method)、請求URL（URI）、HTTP協定版本，以空格隔開。

HTTP協定中最常使用的請求方法有：GET、POST、PUT、DELETE。 GET 方法用於從伺服器取得資源，90%的爬蟲都是基於GET請求抓取資料。

請求 URL 是指資源所在伺服器的路徑位址，例如上圖的範例表示客戶端想要取得 index.html 這個資源，它的路徑在伺服器 foofish.net 的根目錄（/）下面。

請求首部

因為請求行所攜帶的資訊量非常有限，以至於客戶端還有很多想向伺服器要說的事情不得不放在請求首部（Header），請求首部用於給伺服器提供一些額外的信息，例如User-Agent 用來表明客戶端的身份，讓伺服器知道你是來自瀏覽器的請求還是爬蟲，是來自Chrome瀏覽器還是FireFox。 HTTP/1.1 規定了47種首部欄位類型。 HTTP首部欄位的格式很像 Python 中的字典類型，由鍵值對組成，中間用冒號隔開。例如：

User-Agent: Mozilla/5.0

因為客戶端發送請求時，發送的資料（封包）是由字串構成的，為了區分請求首部的結尾和請求體的開始，用一個空行來表示，遇到空行時，就表示這是首部的結尾，請求體的開始。

請求體

請求體是用戶端提交給伺服器的真正內容，例如使用者登入時的需要用的使用者名稱和密碼，例如文件上傳的數據，例如註冊用戶資訊時提交的表單資訊。

現在我們用Python 提供的最原始API socket 模組來模擬向伺服器發起一個HTTP 請求

with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:
 # 1. 与服务器建立连接
 s.connect(("www.seriot.ch", 80))
 # 2. 构建请求行，请求资源是 index.php
 request_line = b"GET /index.php HTTP/1.1"
 # 3. 构建请求首部，指定主机名
 headers = b"Host: seriot.ch"
 # 4. 用空行标记请求首部的结束位置
 blank_line = b"\r\n"

 # 请求行、首部、空行这3部分内容用换行符分隔，组成一个请求报文字符串
 # 发送给服务器
 message = b"\r\n".join([request_line, headers, blank_line])
 s.send(message)

 # 服务器返回的响应内容稍后进行分析
 response = s.recv(1024)
 print(response)

HTTP 回應

#服務端接收請求並處理後，返回回應內容給客戶端，同樣地，回應內容也必須遵循固定的格式瀏覽器才能正確解析。 HTTP 回應也由3部分組成，分別是：回應行、回應首部、回應體，與 HTTP 的請求格式是相對應的。

响应行

响应行同样也是3部分组成，由服务端支持的 HTTP 协议版本号、状态码、以及对状态码的简短原因描述组成。

状态码是响应行中很重要的一个字段。通过状态码，客户端可以知道服务器是否正常处理的请求。如果状态码是200，说明客户端的请求处理成功，如果是500，说明服务器处理请求的时候出现了异常。404 表示请求的资源在服务器找不到。除此之外，HTTP 协议还很定义了很多其他的状态码，不过它不是本文的讨论范围。

响应首部

响应首部和请求首部类似，用于对响应内容的补充，在首部里面可以告知客户端响应体的数据类型是什么？响应内容返回的时间是什么时候，响应体是否压缩了，响应体最后一次修改的时间。

响应体

响应体（body）是服务器返回的真正内容，它可以是一个HTML页面，或者是一张图片、一段视频等等。

我们继续沿用前面那个例子来看看服务器返回的响应结果是什么？因为我只接收了前1024个字节，所以有一部分响应内容是看不到的。

b&#39;HTTP/1.1 200 OK\r\n
Date: Tue, 04 Apr 2017 16:22:35 GMT\r\n
Server: Apache\r\n
Expires: Thu, 19 Nov 1981 08:52:00 GMT\r\n
Set-Cookie: PHPSESSID=66bea0a1f7cb572584745f9ce6984b7e; path=/\r\n
Transfer-Encoding: chunked\r\n
Content-Type: text/html; charset=UTF-8\r\n\r\n118d\r\n

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">\n\n
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">\n
<head>\n\t
 <meta http-equiv="Content-Type" content="text/html;charset=iso-8859-1" /> \n\t
 <meta http-equiv="content-language" content="en" />\n\t
...
</html>

从结果来看，它与协议中规范的格式是一样的，第一行是响应行，状态码是200，表明请求成功。第二部分是响应首部信息，由多个首部组成，有服务器返回响应的时间，Cookie信息等等。第三部分就是真正的响应体 HTML 文本。

至此，你应该对 HTTP 协议有一个总体的认识了，爬虫的行为本质上就是模拟浏览器发送HTTP请求，所以要想在爬虫领域深耕细作，理解 HTTP 协议是必须的。

2. python爬虫入门（3）--利用requests构建知乎API

3. python爬虫入门（2）--HTTP库requests

4. 总结Python的逻辑运算符and

以上是python爬蟲入門（1）--快速理解HTTP協定的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Python與C：學習曲線和易用性Apr 19, 2025 am 12:20 AM

Python更易學且易用，C 則更強大但複雜。 1.Python語法簡潔，適合初學者，動態類型和自動內存管理使其易用，但可能導致運行時錯誤。 2.C 提供低級控制和高級特性，適合高性能應用，但學習門檻高，需手動管理內存和類型安全。

Python vs. C：內存管理和控制Apr 19, 2025 am 12:17 AM

Python和C 在内存管理和控制方面的差异显著。1.Python使用自动内存管理，基于引用计数和垃圾回收，简化了程序员的工作。2.C 则要求手动管理内存，提供更多控制权但增加了复杂性和出错风险。选择哪种语言应基于项目需求和团队技术栈。

科學計算的Python：詳細的外觀Apr 19, 2025 am 12:15 AM

Python在科學計算中的應用包括數據分析、機器學習、數值模擬和可視化。 1.Numpy提供高效的多維數組和數學函數。 2.SciPy擴展Numpy功能，提供優化和線性代數工具。 3.Pandas用於數據處理和分析。 4.Matplotlib用於生成各種圖表和可視化結果。

Python和C：找到合適的工具Apr 19, 2025 am 12:04 AM

選擇Python還是C 取決於項目需求：1)Python適合快速開發、數據科學和腳本編寫，因其簡潔語法和豐富庫；2)C 適用於需要高性能和底層控制的場景，如係統編程和遊戲開發，因其編譯型和手動內存管理。

數據科學和機器學習的PythonApr 19, 2025 am 12:02 AM

Python在數據科學和機器學習中的應用廣泛，主要依賴於其簡潔性和強大的庫生態系統。 1）Pandas用於數據處理和分析，2）Numpy提供高效的數值計算，3）Scikit-learn用於機器學習模型構建和優化，這些庫讓Python成為數據科學和機器學習的理想工具。

學習Python：2小時的每日學習是否足夠？Apr 18, 2025 am 12:22 AM

每天學習Python兩個小時是否足夠？這取決於你的目標和學習方法。 1)制定清晰的學習計劃，2)選擇合適的學習資源和方法，3)動手實踐和復習鞏固，可以在這段時間內逐步掌握Python的基本知識和高級功能。

Web開發的Python：關鍵應用程序Apr 18, 2025 am 12:20 AM

Python在Web開發中的關鍵應用包括使用Django和Flask框架、API開發、數據分析與可視化、機器學習與AI、以及性能優化。 1.Django和Flask框架：Django適合快速開發複雜應用，Flask適用於小型或高度自定義項目。 2.API開發：使用Flask或DjangoRESTFramework構建RESTfulAPI。 3.數據分析與可視化：利用Python處理數據並通過Web界面展示。 4.機器學習與AI：Python用於構建智能Web應用。 5.性能優化：通過異步編程、緩存和代碼優