首頁 >php教程 >PHP开发 >HTTP協定詳解(真的很經典)

HTTP協定詳解(真的很經典)

高洛峰
高洛峰原創
2016-12-12 11:08:071134瀏覽

引言

HTTP是一個屬於應用層的物件導向的協議,由於其簡捷、快速的方式,適用於分散式超媒體資訊系統。它於1990年提出,經過幾年的使用與發展,並不斷地完善與擴展。目前在WWW中使用的是HTTP/1.0的第六版,HTTP/1.1的規範化工作正在進行之中,而且HTTP-NG(Next Generation of HTTP)的建議已經提出。
HTTP協定的主要特點可概括如下:
1.支援客戶/伺服器模式。
2.簡單快速:客戶向伺服器要求服務時,只需傳送請求方法和路徑。請求方法常用的有GET、HEAD、POST。每種方法規定了客戶與伺服器聯繫的類型不同。由於HTTP協定簡單,使得HTTP伺服器的程式規模小,因而通訊速度很快。
3.靈活:HTTP允許傳輸任意類型的資料物件。正在傳輸的類型由Content-Type加以標記。
4.無連線:無連線的意義是限制每次連線只處理一個請求。伺服器處理完客戶的請求,並收到客戶的應答後,即斷開連線。採用這種方式可以節省傳輸時間。
5.無狀態:HTTP協定是無狀態協定。無狀態是指協議對於事務處理沒有記憶能力。缺少狀態意味著如果後續處理需要前面的訊息,則它必須重傳,這可能導致每次連接傳送的資料量增加。另一方面,在伺服器不需要先前資訊時它的應答就較快。

 

一、HTTP協議詳解之URL篇

    http(超文本傳輸協議)是基於請求與響應模式的、無狀態的、應用層的協議,常基於TCP的連接方式,HTTP1.1版本中給出一種持續連線的機制,絕大多數的Web開發,都是建構在HTTP協定之上的Web應用。

HTTP URL (URL是一種特殊類型的URI,包含了用於查找某個資源的足夠的信息)的格式如下:
http://host[":"port][abs_path]
http表示要透過HTTP協定來定位網路資源;host表示合法的Internet主機網域或IP位址;port指定一個連接埠號,為空則使用預設埠80;abs_path指定要求資源的URI;如果URL中沒有給abs_path,那麼當它作為請求URI時,必須以“/”的形式給出,通常這個工作瀏覽器會自動幫我們完成。
eg:
1、輸入:www.guet.edu.cn
瀏覽器自動轉換成:http://www.guet.edu.cn/
2、http:192.168.0.116:8080/index.jsp 

二、HTTP協定詳解之請求篇

    http請求由三部分組成,分別是:請求行、訊息標頭、請求正文

1、請求行以一個方法符號開頭,以空格分開,後面跟著請求的URI和協定的版本,格式如下:Method Request-URI HTTP-Version CRLF  
其中Method表示請求方法;Request-URI是一個統一資源識別碼;HTTP-Version表示請求的HTTP協定版本;CRLF表示回車和換行(除了作為結尾的CRLF外,不允許出現單獨的CR或LF字元)。

請求方法(所有方法全為大寫)有多種,各個方法的解釋如下:
GET     請求獲取Request-URI所識別的資源
POST     取得Request-URI所識別的資源的回應訊息標頭
PUT     請求伺服器儲存資源,並以Request-URI作為其識別
DELETE  請求伺服器刪除Request-URI所識別的資源
TRACE   請求伺服器收到的請求資訊請求伺服器,主要用於測試或診斷
CONNECT 保留將來使用
OPTIONS 請求查詢伺服器的效能,或查詢與資源相關的選項和需求
應用舉例:
GET方法:在瀏覽器的網址列中輸入網址的方式存取網頁時,瀏覽器採用GET方法向伺服器取得資源,eg:GET /form.html HTTP/1.1 (CRLF)

POST方法要求被請求伺服器接受附在請求後面的數據,常用於提交表單。

eg:POST /reg.jsp HTTP/ (CRLF)
Accept:image/gif,image/x-xbit,... (CRLF)
...
HOST:www.guet.edu.cn (CRLF)
Content-Length:22 (CRLF)
Connection:Keep-Alive (CRLF)
Cache-Control:no-cache (CRLF)
(CRLF)         //該CRLF表示訊息標頭已結束,在此之前就已為訊息標頭
user =jeffrey&pwd=1234  //此行以下為提交的資料

HEAD方法與GET方法幾乎是一樣的,對於HEAD請求的回應部分來說,它的HTTP頭部中包含的資訊與透過GET請求所得到的資訊是相同的。利用這個方法,不必傳輸整個資源內容,就可以得到Request-URI所識別的資源的資訊。此方法常用於測試超連結的有效性,是否可以訪問,以及最近是否更新。

2、請求標頭後述
3、請求正文(略) 

 

三、HTTP協定詳解回應篇

    在接收和解釋請求訊息後,伺服器傳回一個HTTP回應訊息。

HTTP回應也是由三個部分組成,分別是:狀態列、訊息標頭、回應正文
1、狀態列格式如下:
HTTP-Version Status-Code Reason-Phrase CRLF
其中,HTTP-Version表示伺服器HTTP協定的版本;Status-Code表示伺服器發回的回應狀態代碼;Reason-Phrase表示狀態代碼的文字描述。
狀態代碼有三位數字組成,第一個數字定義了回應的類別,且有五種可能取值:
1xx:指示訊息--表示請求已接收,繼續處理
2xx:成功--表示請求已被成功接收、理解、接受
3xx:重定向--要完成請求必須進行更進一步的操作
4xx:客戶端錯誤--請求有語法錯誤或請求無法實現
5xx:伺服器端錯誤--伺服器未能實現合法的請求
常見狀態代碼、狀態描述、說明:
200 OK      //客戶端請求成功
400 Bad Request  //客戶端請求有語法錯誤,不能被伺服器所理解
401 Unauthorized //請求未經授權,這個狀態代碼必須和WWW-Authenticate標頭域一起使用 
403 Forbidden  //伺服器收到請求,但是拒絕提供服務
404 Not Found  //請求資源不存在,eg:輸入了錯誤的URL
500 Internal Server Error / /伺服器發生不可預期的錯誤
503 Server Unavailable  //伺服器目前無法處理客戶端的請求,一段時間後可能恢復正常
eg:HTTP/1.1 200 OK (CRLF)

2、回應標頭後述

3、回應正文就是伺服器回傳的資源的內容 

 

四、HTTP協定詳解之訊息封包頭篇

    HTTP訊息由客戶端對伺服器的請求和伺服器對客戶端的回應所組成。請求訊息和回應訊息都是由開始行(對於請求訊息,開始行就是請求行,對於回應訊息,開始行就是狀態行),訊息標頭(可選),空行(只有CRLF的行),訊息正文(可選)組成。

HTTP訊息標頭包括普通標頭、請求標頭、回應標頭、實體標頭。
每一個標頭域都是由名字+“:”+空格+值 組成,訊息標頭域的名字是大小寫無關的。

1、普通報頭
在普通報頭中,有少數標頭域用於所有的請求和回應訊息,但並不用於被傳輸的實體,只用於傳輸的訊息。
eg:
Cache-Control   用來指定快取指令,快取指令是單向的(回應中出現的快取指令在請求中未必會出現),且是獨立的(一個訊息的快取指令不會影響另一個訊息處理的快取機制),HTTP1.0使用的類似的標頭域為Pragma。
請求時的快取指令包括:no-cache(用於指示請求或回應訊息不能快取)、no-store、max-age、max-stale、min-fresh、only-if-cached;
回應時的緩存指令包括:public、private、no-cache、no-store、no-transform、must-revalidate、proxy-revalidate、max-age、s-maxage.
eg:為了指示IE瀏覽器(客戶端)不要快取頁面,伺服器端的JSP程式可以寫如下:response.sehHeader("Cache-Control","no-cache");
//response.setHeader("Pragma","no-cache");作用相當於上述程式碼,通常兩者//合用
這句程式碼會在發送的回應訊息中設定普通標頭域:Cache-Control:no-cache


Date普通標頭域表示訊息產生的日期和時間

Connection普通標頭域允許傳送指定連線的選項。例如指定連線是連續,或指定「close」選項,通知伺服器,在回應完成後,關閉連線

2、請求報頭
請求報頭允許客戶端向伺服器端傳遞請求的附加資訊以及客戶端本身的資訊。
常用的請求標頭
Accept
Accept請求標頭域用於指定客戶端接受哪些類型的資訊。 eg:Accept:image/gif,表示客戶端希望接受GIF圖象格式的資源;Accept:text/html,表示客戶端希望接受html文字。
Accept-Charset
Accept-Charset請求標頭域用於指定客戶端接受的字元集。 eg:Accept-Charset:iso-8859-1,gb2312.如果在請求訊息中沒有設定這個域,缺省是任何字元集都可以接受。
Accept-Encoding
Accept-Encoding請求報頭域類似於Accept,但它是用於指定可接受的內容編碼。 eg:Accept-Encoding:gzip.deflate.如果請求訊息中沒有設定這個網域伺服器假定客戶端對各種內容編碼都可以接受。
Accept-Language
Accept-Language請求標頭域類似Accept,但它是用來指定自然語言。 eg:Accept-Language:zh-cn.如果請求訊息中沒有設定這個標頭域,伺服器假定客戶端對各種語言都可以接受。
Authorization
Authorization請求標頭域主要用於證明客戶端有權查看某個資源。當瀏覽器存取一個頁面時,如果收到伺服器的回應代碼為401(未授權),可以傳送一個包含Authorization請求標頭域的請求,要求伺服器對其進行驗證。
Host(發送請求時,該標頭域是必需的)
Host請求報頭域主要用於指定被請求資源的Internet主機和連接埠號,它通常從HTTP URL中提取出來的,eg:
我們在瀏覽器中輸入:http://www.guet.edu.cn/index.html
瀏覽器發送的請求訊息中,就會包含Host請求標頭域,如下:
Host:www.guet.edu.cn
此處使用缺省連接埠號碼80,若指定了連接埠號,則變成:Host:www.guet.edu.cn:指定連接埠號碼
User-Agent
我們上網登陸論壇的時候,往往會看到一些歡迎訊息,其中列出了你的作業系統的名稱和版本,你所使用的瀏覽器的名稱和版本,這往往讓很多人感到很神奇,實際上,伺服器應用程式就是從User-Agent這個請求報頭域中獲取到這些資訊。 User-Agent請求標頭域允許客戶端將它的作業系統、瀏覽器和其它屬性告訴伺服器。不過,這個報頭域不是必需的,如果我們自己寫一個瀏覽器,不使用User-Agent請求報頭域,那麼伺服器端就無法得知我們的資訊了。
請求報頭範例:
GET /form.html HTTP/1.1 (CRLF)
Accept:image/gif,image/x-xbitmap,image/jpeg,application/x-shockwave-flash,application/vnd.ms-excel, application/vnd.ms-powerpoint,application/msword,*/* (CRLF)
Accept-Language:zh-cn (CRLF)
Accept-Encoding:gzip,deflate (CRLF)
If-Modified-Since:Wed,05 Jan 2007 11:21:25 GMT (CRLF)
If-None-Match:W/"80b1a4c018f3c41:8317" (CRLF)
User-Agent:Mozilla/4.0(compatibleible;MSIE6.0) Windows
Host:www.guet.edu.cn (CRLF)
Connection:Keep-Alive (CRLF)
(CRLF)

3、回應標頭
回應標頭允許伺服器傳遞不能放在狀態列中的附加回應訊息,以及關於伺服器的資訊和對Request-URI所識別的資源進行下一步存取的資訊。
常用的回應報頭
Location
Location回應報頭域用於重定向接受者到一個新的位置。 Location響應報頭域常用在更換網域的時候。
Server
Server回應標頭域包含了伺服器用來處理請求的軟體資訊。與User-Agent請求標頭域是相對應的。以下是
Server回應標頭域的一個例子:
Server:Apache-Coyote/1.1
WWW-Authenticate
WWW-Authenticate回應標頭域必須包含在401(未授權的)回應訊息中,客戶端收到401回應訊息時候,並發送Authorization標頭域請求伺服器對其進行驗證時,服務端回應標頭就包含該標頭域。
eg:WWW-Authenticate:Basic realm="Basic Auth Test!"  //可以看出伺服器對請求資源採用的是基本驗證機制。


4、實體標頭
請求和回應訊息都可以傳送一個實體。一個實體由實體標頭域和實體正文組成,但並不是說實體標頭域和實體正文要在一起發送,可以只發送實體報頭域。實體標頭定義了關於實體正文(eg:有無實體正文)和請求所標識的資源的元資訊。
常用的實體標頭
Content-Encoding
Content-Encoding實體標頭域被用作媒體類型的修飾符,它的值指示了已經被應用到實體正文的附加內容的編碼,因而要獲得Content-Type報頭域中所引用的媒體類型,必須採用對應的解碼機制。 Content-Encoding這樣用來記錄文件的壓縮方法,eg:Content-Encoding:gzip
Content-Language
Content-Language實體標頭域描述了資源所使用的自然語言。沒有設定該網域則認為實體內容將提供給所有的語言閱讀
者。 eg:Content-Language:da
Content-Length
Content-Length實體標頭域用於指明實體正文的長度,以位元組方式儲存的十進制數字來表示。
Content-Type
Content-Type實體標頭域以語指明傳送給接收者的實體正文的媒體類型。 eg:
Content-Type:text/html;charset=ISO-8859-1
Content-Type:text/html;charset=GB2312
Last-Modified
Last-Modified實體標頭域用於指示資源的最後修改日期和時間。
Expires
Expires實體標頭域給出回應過期的日期和時間。為了讓代理伺服器或瀏覽器在一段時間以後更新快取中(再次訪問曾訪問過的頁面時,直接從快取中加載,縮短回應時間和降低伺服器負載)的頁面,我們可以使用Expires實體標頭域指定頁面過期的時間。 eg:Expires:Thu,15 Sep 2006 16:23:12 GMT
HTTP1.1的客戶端和快取必須將其他非法的日期格式(包括0)視為已經過期。 eg:為了讓瀏覽器不要快取頁面,我們也可以利用Expires實體標頭域,設定為0,jsp中程式如下:response.setDateHeader("Expires","0");

 

五、利用telnet觀察http協定的通訊流程

    實驗目的及原則:
    利用MS的telnet工具,透過手動輸入http請求訊息的方式,向伺服器發出請求,伺服器接收、解釋及接受請求後,會回傳一個回應,該回應會在telnet視窗上顯示出來,從而從感性上加深對http協定的通訊過程的認識。

    實驗步驟:

1、開啟telnet
1.1 開啟telnet
運作-->cmd-->telnet

1.2 開啟telnet回顯功能
set localecho

1.2 開啟telnet回顯功能
set localecho

1.2 開啟telnet回復guet.edu.cn 80  //注意連接埠號碼不能省略

    HEAD /index.asp HTTP/1.0
    Host:www.guet.edu. 
    
 訊息如下*/
    open www.guet.edu.cn 80 
   

    GET /index.asp HTTP/1.0  //請求資源的內容

 :   Hostostwww.2.edu cn 80  //在指令提示符號下直接輸入telnet www.sina.com.cn 80
    HEAD /index.asp HTTP/1.0
    Host:www.sina.com.cn
 

    Host:www.sina.com.cn

 

信息2.1得到的響應是:

HTTP/1.1 200 OK                                              //請求成功

Server: Microsoft-IIS/5.0                                    //web服務器
Date: Thu,08 Mar 200707:17:51 GMT
Connection: Keep-Alive                                 
Content-Length: 23330
Content-Type: text/html
Expries: Thu,08 Mar 2007 07:16:51 GMT
Set-Cookie: ASPSESSIONIDQAQBQQQB=BEJCDGKADJ-KAJ3/Swidm/g針對//資源內容省略

3.2 請求訊息2.2得到的回應是:

HTTP/1.0 404 Not Found       //請求失敗
Date: Thu, 08 Mar 2007 07:50:50 GMT
Server: Apache/2.0.54 ifiedLhu-
Server: Apache/2.0.54 2013,Mod3:Mod3:Mod3:Mod: 41 GMT
ETag: "6277a-415-e7c76980"
Accept-Ranges: bytes
X-Powered-By: mod_xlayout_jh/0.0.1vhs.markII.remix
Vary: -Cache: MISS from zjm152-78.sina.com.cn
Via: 1.0 zjm152-78.sina.com.cn:80
X-Cached/2.6.STABLES-20061207>
X-Cached/2.6.STABLES-20061207>
X-Cached: MISS from th-143. .com.cn
Connection: close


失去了跟主機的連線

按任意鍵繼續...

4 .注意事項:1、出現輸入錯誤,則請求不會成功。
          2、標頭域不分大小寫。
          3、較深入了解HTTP協議,可檢視RFC2616,並在http://www.letf.org/rfc上找到該文件。
          4、開發後台程式必須掌握http協定

六、HTTP協定相關技術補充

    1、基本:
    高層協定有:檔案傳輸協定FTP、電子郵件傳輸協定SMTP、網域名稱系統服務DNS、網路新聞傳輸協定NNTP和HTTP協定等
中介由三種:代理(Proxy)、閘道(Gateway)和通道(Tunnel),一個代理根據URI的絕對格式來接受請求,重寫全部或部分訊息,透過URI的識別把已格式化過的請求傳送到伺服器。網關是一個接收代理,作為一些其它伺服器的上層,並且如果必須的話,可以把請求翻譯給下層的伺服器協定。一 個通道作為不改變訊息的兩個連接之間的中繼點。當通訊需要透過一個中介(例如:防火牆等)或是中介無法辨識訊息的內容時,頻道經常被使用。
     代理(Proxy):一個中間程序,它可以充當一個伺服器,也可以充當一個客戶機,為其它客戶機建立請求。請求是透過可能的翻譯在內部或經過傳遞到其它的 伺服器中。一個代理在發送請求訊息之前,必須解釋並且如果可能重寫它。代理經常作為通過防火牆的客戶機端的門戶,代理還可以作為一個幫助應用來通過協議處 理沒有被用戶代理完成的請求。
網關(Gateway):一個作為其它伺服器中間媒介的伺服器。與代理程式不同的是,網關接受請求就好像對被請求的資源來說它就是來源伺服器;發出請求的客戶機並沒有意識到它在同網關打交道。
網關經常作為通過防火牆的伺服器端的門戶,網關也可以作為協定翻譯器以便訪問那些儲存在非HTTP系統中的資源。
    通道(Tunnel):是作為兩個連結中繼的中介程序。一旦被激活,通道便被認為不屬於HTTP通訊,儘管通道可能是被一個HTTP請求初始化的。當被中繼 的連線兩端關閉時,通道便消失。當一個門戶(Portal)必須存在或中介(Intermediary)不能解釋中繼的通訊時通道被經常使用。

2、協定分析的優點—HTTP分析器偵測網路攻擊
以模組化的方式對高層協定進行分析處理,將是未來入侵偵測的方向。
HTTP及其代理的常用連接埠80、3128和8080在network部分用port標籤進行了規定

3、HTTP協定Content Lenth限制漏洞導致拒絕服務攻擊
使用POST方法時,可以設定ContentLenth來定義需要傳送的資料長度,例如ContentLenth:999999999,在傳送完成前,記憶體不會釋放,攻擊者可以利用這個缺陷,連續向WEB伺服器發送垃圾資料直至WEB伺服器記憶體耗盡。這種攻擊方法基本上不會留下痕跡。
http://www.cnpaf.net/Class/HTTP/0532918532667330.html

4、利用HTTP協定的特性進行拒絕服務攻擊的一些構思
伺服器端忙於處理攻擊者偽造的TCP連線請求而無暇理管的正常請求(畢竟客戶端的正常請求比率非常之小),此時從正常客戶的角度看來,伺服器失去回應,這種情況我們稱作:伺服器端受到了SYNFlood攻擊(SYN洪水攻擊)。
而Smurf、TearDrop等是利用ICMP封包來Flood和IP碎片攻擊的。本文用「正常連線」的方法來產生拒絕服務攻擊。
19埠在早期已經有人用來做Chargen攻擊了,也就是Chargen_Denial_of_Service,但!他們用的方法是在兩台Chargen 伺服器之間產生UDP連接,讓伺服器處理過多資訊而DOWN掉,那麼,幹掉一台WEB伺服器的條件就必須有2個:1.有Chargen服務2.有HTTP服務
方法:攻擊者偽造來源IP給N台Chargen發送連接請求(Connect),Chargen接收到連接後就會返回每秒72位元組的字元流(實際上根據網路實際情況,這個速度更快)給伺服器.

5、Http指紋辨識技術
   Http指紋辨識的原理大致上也是相同的:記錄不同伺服器對Http協定執行中的微小差別進行辨識.Http指紋辨識比TCP/IP堆疊指紋辨識複雜許多,理由是客製化Http伺服器的設定檔、增加插件或組件使得更改Http的回應訊息變的很容易,這樣使得識別變的困難;然而定制TCP/IP堆疊的行為需要對核心層進行修改,所以就容易識別.
      要讓伺服器返回不同的Banner資訊的設定是很簡單的,象Apache這樣的開放原始碼的Http伺服器,用戶可以在原始碼裡修改Banner資訊,然後重起Http服務就生效了;對於沒有公開原始碼的Http伺服器例如微軟的IIS或是Netscape,可以在存放Banner資訊的Dll檔案中修改,相關的文章有討論的,這裡不再贅述,當然這樣的修改的效果還是不錯的.另外一種模糊Banner資訊的方法是使用插件。
常用測試請求:
1:HEAD/Http/1.0發送基本的Http請求
2:DELETE/Http/1.0發送那些不被允許的請求,例如Delete請求
3:GET/Http/3.0發送一個非法版本的Http協定請求
4:GET/JUNK/1.0發送一個不正確規格的Http協定請求
Http指紋辨識工具Httprint,它透過運用統計原理,組合模糊的邏輯學技術,能很有效的確定Http伺服器的類型.它可以被用來收集和分析不同Http伺服器產生的簽章。

6、其他:為了提高用戶使用瀏覽器時的性能,現代瀏覽器還支持並發的訪問方式,瀏覽一個網頁時同時建立多個連接,以迅速獲得一個網頁上的多個圖標,這樣能更快速完成整個網頁的傳輸。
HTTP1.1中提供了這種持續連接的方式,而下一代HTTP協定:HTTP-NG更增加了有關會話控制、豐富的內容協商等方式的支持,來提供
更高效率的連接。


陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn