首頁 >後端開發 >Python教學 >如何使用Python的Requests套件實現模擬登陸

如何使用Python的Requests套件實現模擬登陸

不言
不言原創
2018-05-02 14:22:202907瀏覽

這篇文章主要為大家詳細介紹了使用Python的Requests包模擬登陸,具有一定的參考價值,有興趣的小伙伴們可以參考一下

前段時間喜歡用python去抓一些頁面玩,但基本上都用get請求一些頁面,再透過正規去過濾。

今天試了一下,模擬登陸個人網站。發現也比較簡單。讀懂本文需要對http協定和http會話有一定的理解。

註明:因為模擬登陸的是我的個人網站,所以以下程式碼對個人網站和帳號密​​碼做了處理。

網站分析

爬蟲的必備第一步,分析目標網站。這裡使用谷歌瀏覽器的開發者工具分析。

透過登陸抓取,看到這樣一個請求。

上方部分為請求頭,下方部分為請求是傳送的參數。圖片可以看出,頁面透過表單提交了三個參數。分別為_csrf,usermane,password。

其中csrf是為了預防跨域腳本偽造。原理很簡單,就是每一次請求,伺服器產生一串加密字串。放在隱藏的input表單中。再一次請求的時候,把這個字串一起傳過去,為了驗證是否為同一個使用者的請求。

因此,我們的程式碼邏輯就有了。首先請求一次登入頁面。然後分析頁面,拿到csrf字串。最後把這個字串和帳號密碼一起傳給伺服器用來登入。

第一份程式碼

#!/usr/bin/env python2.7
# -*- coding: utf-8 -*-

import requests
import re

# 头部信息
headers = {
 'Host':"localhost",
 'Accept-Language':"zh-CN,zh;q=0.8",
 'Accept-Encoding':"gzip, deflate",
 'Content-Type':"application/x-www-form-urlencoded",
 'Connection':"keep-alive",
 'Referer':"http://localhost/login",
 'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36"
}

# 登陆方法
def login(url,csrf):
 data = {
 "_csrf" : csrf,
 "username": "xiedj",
 "password": "***"
 }

 response = requests.post(url, data=data, headers=headers)
 return response.content


# 第一次访问获取csrf值
def get_login_web(url):
 page = requests.get('http://localhost/login')
 reg = r&#39;<meta name="csrf-token" content="(.+)">&#39;
 csrf = re.findall(reg,page.content)[0]
 login_page = login(url,csrf)
 print login_page


if __name__ == "__main__":
 url = "http://localhost/login/checklogin"
 get_login_web(url)

#程式碼看起來好像沒有什麼問題。然而執行的時候出錯了。核查了一下,錯誤的原因是,csrf驗證失敗!

再確認一次取得的csrf和要求登入的csrf字串沒問題了之後,我想到了一個問題。
如果,大家還不知道錯誤原因的話,這裡可以暫停思考一個問題。 「伺服器如何知道,第一次請求獲取csrf和第二次post登入請求是同一個使用者?」

到這,應該都清楚了,如果要登入成功,需要解決如何讓服務相信兩次請求是同一個使用者。這裡要用到http會話(不清楚的可以自行百度,這裡簡單介紹)。

http協定是一個種無狀態的協定。為了使這種無狀態變得有狀態,因此引進了會話。簡單的講,透過session去記錄這個狀態。當一個使用者第一次要求web服務的時候,伺服器會產生一個session,用來保存這個使用者的資訊。同時,在回傳給用戶端時,把這個sessionID保存在cookies裡。當用戶再一次要求的時候,瀏覽器會把這個cookies帶上。因此在伺服器端就能知道多次請求是否為同一個使用者。

因此我們的程式碼,需要在第一次要求的時候拿到這個sessionID。第二次請求的時候把這個sessionID一起傳過去。而requests厲害的地方就是,一句簡單requests.Session(),就能使用這個會話物件。

第二份程式碼

#!/usr/bin/env python2.7
# -*- coding: utf-8 -*-

import requests
import re

# 头部信息
headers = {
 &#39;Host&#39;:"localhost",
 &#39;Accept-Language&#39;:"zh-CN,zh;q=0.8",
 &#39;Accept-Encoding&#39;:"gzip, deflate",
 &#39;Content-Type&#39;:"application/x-www-form-urlencoded",
 &#39;Connection&#39;:"keep-alive",
 &#39;Referer&#39;:"http://localhost/login",
 &#39;User-Agent&#39;:"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36"
}

# 登陆方法
def login(url,csrf,r_session):
 data = {
 "_csrf" : csrf,
 "username": "xiedj",
 "password": "***"
 }

 response = r_session.post(url, data=data, headers=headers)
 return response.content


# 第一次访问获取csrf值
def get_login_web(url):
 r_session = requests.Session()
 page = r_session.get(&#39;http://localhost/login&#39;)
 reg = r&#39;<meta name="csrf-token" content="(.+)">&#39;
 csrf = re.findall(reg,page.content)[0]


 login_page = login(url,csrf,r_session)
 print login_page


if __name__ == "__main__":
 url = "http://localhost/login/checklogin"
 get_login_web(url)

#成功取得登陸後的頁面

由程式碼可以知道,requests.Session()啟動會話物件後,第二次請求會自動把上一次的sessionID一起傳過去。

相關推薦:

使用Python導出Excel圖表以及導出為圖片的方法

分析使用python的open函數時報No Such File or DIr的錯誤原因


###############################################################################################

以上是如何使用Python的Requests套件實現模擬登陸的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn