首頁  >  文章  >  後端開發  >  如何利用Python實現模擬登入知乎

如何利用Python實現模擬登入知乎

PHPz
PHPz轉載
2023-05-18 16:02:031513瀏覽

環境與開發工具

在抓包的時候,開始使用的是Chrome開發工具中的Network,結果沒有抓到,後來使用Fiddler成功抓取資料。下面逐步來細化上述過程。

模擬知乎登入前,先來看看本案例所使用的環境及其工具:

  • Windows 7 Python 2.75

  • Chrome Fiddler: 用來監控客戶端與伺服器的通訊狀況,以及尋找相關參數的位置。

模擬流程概述

  • 使用Google瀏覽器結合Fiddler來監控客戶端與服務端的通訊流程;

  • 根據監控結果,建構請求伺服器過程中傳遞的參數;

  • 使用Python模擬參數傳遞過程。

用戶端與服務端通訊過程的幾個關鍵點:

  • 登入時的url位址。

  • 主要有兩種方法可以取得登入時提交的參數【params】:第一種是透過分析頁面原始碼來找到表單標籤及屬性;。適應比較簡單的頁面。第二、使用抓包工具,查看提交的url和參數,通常使用的是Chrome的開發者工具中的Network, Fiddler等。

  • 登入後跳轉的url。

參數探索

首先看看這個登入頁面,也就是我們登入時的url位址。

如何利用Python實現模擬登入知乎

看到這個頁面,我們也可以大概猜測下請求伺服器時傳遞了幾個字段,很明顯有:用戶名、密碼、驗證碼以及「記住我”這幾個值。那麼實際上有哪些呢?下面來分分析下。

先查看HTML原始碼,Google裡可以使用CTRL U查看,然後使用CTRL F輸入input看看有哪些欄位值,詳情如下:

如何利用Python實現模擬登入知乎

請求伺服器時,原始碼表示還附帶一個隱藏欄位「_xsrf」。現在的疑問是參數是透過什麼名稱進行傳遞的,因此需要使用別的工具來擷取封包進行分析。在這裡,筆者用的是Fiddler,它可以在Windows系統上運作。當然,你也可以使用其他工具。

由於抓包所得到的資訊量較大,尋找所需資訊變得較為困難,抓包過程因此變得較為繁瑣。關於fiddler,很容易使用,有過不會,可以去百度搜一下。為了防止其他資訊幹擾,我們先將fiddler中的記錄清除,然後輸入用戶名(筆者使用的是郵箱登錄)、密碼等資訊登錄,對應的在fiddler中會有如下結果:

如何利用Python實現模擬登入知乎

備註:如果是使用手機登錄,則對應fiddler中的url是「/login/phone_num」。

為了查看詳細的請求參數,我們左鍵單機“/login/email”,可以看到下列資訊:

如何利用Python實現模擬登入知乎

請求方式為POST,請求的url為https://www.zhihu.com/login/email。而從From Data可以看出,對應的欄位名稱如下:

  • _xsrf

  • captcha

  • email

  • password

  • #remember

對於這五個字段,程式碼中email 、password以及captcha都是手動輸入的,remember初始化為true。可以根據登入頁面的來源文件,取得input標籤中名為_xsrf的value值,從而得到剩餘的_xsrf。

如何利用Python實現模擬登入知乎

對於驗證碼,則需要透過額外的請求,可以透過定點查看原始碼看出:

如何利用Python實現模擬登入知乎

連結為https://www.zhihu.com/captcha.gif?type=login,這裡省略了ts(經過測試,可省略掉)。現在,可以使用程式碼進行模擬登入。

溫馨提示:如果使用的是手機號碼進行登錄,則請求的url為https://www.zhihu.com/login/phone_num,同時email欄位名稱將變成“phone_num”。

模擬原始碼

在編寫程式碼實作知乎登入的過程中,筆者將一些功能封裝成了一個簡單的類別WSpider,以便重複使用,檔案名稱為WSpider.py。

# -*- coding: utf-8 -*-
"""
Created on Thu Nov 02 14:01:17 2016
@author: liudiwei
"""
import urllib
import urllib2
import cookielib
import logging  

class WSpider(object):
    def __init__(self):
        #init params
        self.url_path = None
        self.post_data = None
        self.header = None
        self.domain = None
        self.operate = None

        #init cookie
        self.cookiejar = cookielib.LWPCookieJar()
        self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookiejar))
        urllib2.install_opener(self.opener)

    def setRequestData(self, url_path=None, post_data=None, header=None):
        self.url_path = url_path
        self.post_data = post_data
        self.header = header

    def getHtmlText(self, is_cookie=False):
        if self.post_data == None and self.header == None:
            request = urllib2.Request(self.url_path)
        else:
            request = urllib2.Request(self.url_path, urllib.urlencode(self.post_data), self.header)
        response = urllib2.urlopen(request)
        if is_cookie: 
            self.operate = self.opener.open(request)
        resText = response.read()
        return resText

    """
    Save captcha to local    
    """    
    def saveCaptcha(self, captcha_url, outpath, save_mode='wb'):
        picture = self.opener.open(captcha_url).read() #用openr访问验证码地址,获取cookie
        local = open(outpath, save_mode)
        local.write(picture)
        local.close()    

    def getHtml(self, url):
        page = urllib.urlopen(url)
        html = page.read()
        return html


    """
    功能:将文本内容输出至本地
    @params
        content:文本内容
        out_path: 输出路径
    """
    def output(self, content, out_path, save_mode="w"):
        fw = open(out_path, save_mode)
        fw.write(content)
        fw.close()
        
    """#EXAMPLE
    logger = createLogger('mylogger', 'temp/logger.log')
    logger.debug('logger debug message')  
    logger.info('logger info message')  
    logger.warning('logger warning message')  
    logger.error('logger error message')  
    logger.critical('logger critical message')  
    """    
    def createLogger(self, logger_name, log_file):
        # 创建一个logger
        logger = logging.getLogger(logger_name)  
        logger.setLevel(logging.INFO)  

        # 创建一个handler,用于写入日志文件    
        fh = logging.FileHandler(log_file)  

        # 再创建一个handler,用于输出到控制台    
        ch = logging.StreamHandler()  
        # 定义handler的输出格式formatter    

        formatter = logging.Formatter('%(asctime)s | %(name)s | %(levelname)s | %(message)s')  
        fh.setFormatter(formatter)  
        ch.setFormatter(formatter)  
        # 给logger添加handler    

        logger.addHandler(fh)  
        logger.addHandler(ch)  
        return logger

關於模擬登入知乎的原始碼,保存在zhiHuLogin.py文件,內容如下:

# -*- coding: utf-8 -*-
"""
Created on Thu Nov 02 17:07:17 2016
@author: liudiwei

"""
import urllib
from WSpider import WSpider
from bs4 import BeautifulSoup as BS
import getpass
import json
import WLogger as WLog
"""
2016.11.03 由于验证码问题暂时无法正常登陆
2016.11.04 成功登录,期间出现下列问题
验证码错误返回:{ "r": 1, "errcode": 1991829, "data": {"captcha":"验证码错误"}, "msg": "验证码错误" }
验证码过期:{ "r": 1, "errcode": 1991829, "data": {"captcha":"验证码回话无效 :(","name":"ERR_VERIFY_CAPTCHA_SESSION_INVALID"}, "msg": "验证码回话无效 :(" }
登录:{"r":0, "msg": "登录成功"}
"""
def zhiHuLogin():
    spy = WSpider()
    logger = spy.createLogger('mylogger', 'temp/logger.log')
    homepage = r"https://www.zhihu.com/"    
    html = spy.opener.open(homepage).read()
    soup = BS(html, "html.parser")
    _xsrf = soup.find("input", {'type':'hidden'}).get("value")

    #根据email和手机登陆得到的参数名不一样,email登陆传递的参数是‘email',手机登陆传递的是‘phone_num'
    username = raw_input("Please input username: ")
    password = getpass.getpass("Please input your password: ")
    account_name = None
    if "@" in username:
        account_name = 'email'
    else:
        account_name = 'phone_num' 

    #保存验证码
    logger.info("save captcha to local machine.")
    captchaURL = r"https://www.zhihu.com/captcha.gif?type=login" #验证码url
    spy.saveCaptcha(captcha_url=captchaURL, outpath="temp/captcha.jpg") #temp目录需手动创建

    #请求的参数列表
    post_data = {
        '_xsrf': _xsrf,
        account_name: username,
        'password': password,
        'remember_me': 'true',
        'captcha':raw_input("Please input captcha: ")

    }

    #请求的头内容
    header ={
        'Accept':'*/*' ,
        'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
        'X-Requested-With':'XMLHttpRequest',
        'Referer':'https://www.zhihu.com/',
        'Accept-Language':'en-GB,en;q=0.8,zh-CN;q=0.6,zh;q=0.4',
        'Accept-Encoding':'gzip, deflate, br',
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36',
        'Host':'www.zhihu.com'
    }

    url = r"https://www.zhihu.com/login/" + account_name
    spy.setRequestData(url, post_data, header)
    resText = spy.getHtmlText()
    jsonText = json.loads(resText)

    if jsonText["r"] == 0:
        logger.info("Login success!")
    else:
        logger.error("Login Failed!")
        logger.error("Error info ---> " + jsonText["msg"])

    text = spy.opener.open(homepage).read() #重新打开主页,查看源码可知此时已经处于登录状态
    spy.output(text, "out/home.html") #out目录需手动创建

if __name__ == '__main__':
    zhiHuLogin()

關於原始碼的分析,可以參考程式碼中的註解。

運行結果

在控制台中執行python zhiHuLogin.py,然後按提示輸入對應的內容,最後可得到以下不同的結果(舉了三個實例):

結果一:密碼錯誤

如何利用Python實現模擬登入知乎

結果二:驗證碼錯誤

如何利用Python實現模擬登入知乎

結果三:成功登入

如何利用Python實現模擬登入知乎

以上是如何利用Python實現模擬登入知乎的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:yisu.com。如有侵權,請聯絡admin@php.cn刪除