ホームページ  >  記事  >  バックエンド開発  >  Python を使用して Zhihu へのシミュレートされたログインを実装する方法

Python を使用して Zhihu へのシミュレートされたログインを実装する方法

PHPz
PHPz転載
2023-05-18 16:02:031514ブラウズ

環境と開発ツール

パケットをキャプチャするとき、最初は Chrome 開発ツールの Network を使用しましたが、キャプチャに失敗しました。その後、Fiddler を使用してデータを正常にキャプチャしました。上記のプロセスについては、以下で段階的に詳しく説明します。

Zhihu ログインをシミュレートする前に、まずこのケースで使用される環境とツールを確認してください:

  • Windows 7 Python 2.75

  • Chrome Fiddler: クライアントとサーバー間の通信を監視し、関連するパラメーターの場所を見つけるために使用されます。

シミュレーション プロセスの概要

  • Google ブラウザと Fiddler を組み合わせて、クライアントとサーバー間の通信プロセスを監視します。

  • 監視結果に従って、サーバーへのリクエストのプロセスで渡されるパラメータを構築します。

  • #Python を使用して、パラメータ渡すプロセスをシミュレートします。

クライアントとサーバー間の通信プロセスにおけるいくつかの重要なポイント:

  • ログイン時の URL アドレス。

  • ログイン時に送信されたパラメータ [params] を取得するには、主に 2 つの方法があります。1 つ目は、ページのソース コードを分析してフォームのタグと属性を見つけることです。比較的単純なページに適応します。次に、パケット キャプチャ ツールを使用して、送信された URL とパラメータを表示します。通常は、Chrome の開発者ツールの Network、Fiddler などが使用されます。

  • #ログイン後にジャンプする URL。
  • パラメータの探索

最初に、ログイン時の URL アドレスであるこのログイン ページを確認します。

Python を使用して Zhihu へのシミュレートされたログインを実装する方法このページを見ると、サーバーへのリクエスト時にいくつかのフィールドが渡されることが大まかに推測できます。明らかに、ユーザー名、パスワード、確認コード、およびこれらの値を「覚えておく」必要があります。 。それで、実際にはどれが存在するのでしょうか?以下で分析してみましょう。

最初に HTML ソース コードを確認します。CTRL U を使用して Google で表示し、次に CTRL F を使用して入力して、どのようなフィールド値があるかを確認できます。詳細は次のとおりです:

Python を使用して Zhihu へのシミュレートされたログインを実装する方法サーバーにリクエストするとき、ソースコードは隠しフィールド「_xsrf」も存在することを示しています。ここで問題となるのは、パラメータがどのような名前で渡されるかであるため、分析のためにデータ パケットをキャプチャするには他のツールを使用する必要があります。ここでは、Windows システムで動作する Fiddler を使用します。もちろん、他のツールを使用することもできます。

パケット キャプチャから得られる情報が大量になるため、必要な情報を見つけることがより困難になり、パケット キャプチャ プロセスがより煩雑になります。 fiddler の使い方は非常に簡単なので、未経験の方は Baidu で検索してみてください。他の情報の干渉を防ぐために、まず fiddler のレコードをクリアし、次にユーザー名 (作成者は電子メールを使用してログインします)、パスワード、およびその他の情報を入力してログインします。fiddler での対応する結果は次のようになります。

Python を使用して Zhihu へのシミュレートされたログインを実装する方法注: 携帯電話を使用してログインする場合、fiddler の対応する URL は「/login/phone_num」です。

詳細なリクエスト パラメーターを表示するには、「/login/email」を左クリックすると、次の情報が表示されます:

Python を使用して Zhihu へのシミュレートされたログインを実装する方法リクエストメソッドは POST、要求された URL は

https://www.zhihu.com/login/email

です。 From Data からわかるように、対応するフィールド名は次のとおりです:

    _xsrf
  • captcha
  • ##email
  • password
  • 覚えておいてください
  • これらの 5 つのフィールドについては、電子メールで送信してください。コード、パスワード、キャプチャはすべて手動で入力され、true に初期化されることを覚えておいてください。ログイン ページのソース ファイルに基づいて、input タグ内の _xsrf という名前の値を取得することで、残りの _xsrf を取得できます。

検証コードについては、追加のリクエストが必要です。リンクは、固定ポイントでソース コードを表示することで確認できます: Python を使用して Zhihu へのシミュレートされたログインを実装する方法

# #リンクは

https://www.zhihu.com/captcha.gif?type=loginPython を使用して Zhihu へのシミュレートされたログインを実装する方法 です。ここでは ts は省略されています (テスト後に省略できます)。コードを使用してログインをシミュレートできるようになりました。

注意事項: 携帯電話番号を使用してログインする場合、要求される URL は https://www.zhihu.com/login/phone_num であり、電子メール フィールド名は「phone_num」になります。

シミュレーション ソース コードZhihu ログインを実装するコードを作成するプロセスで、作成者は再利用のためにいくつかの関数を単純なクラス WSpider にカプセル化しました。ファイル名は WSpider.py です。

# -*- coding: utf-8 -*-
"""
Created on Thu Nov 02 14:01:17 2016
@author: liudiwei
"""
import urllib
import urllib2
import cookielib
import logging  

class WSpider(object):
    def __init__(self):
        #init params
        self.url_path = None
        self.post_data = None
        self.header = None
        self.domain = None
        self.operate = None

        #init cookie
        self.cookiejar = cookielib.LWPCookieJar()
        self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookiejar))
        urllib2.install_opener(self.opener)

    def setRequestData(self, url_path=None, post_data=None, header=None):
        self.url_path = url_path
        self.post_data = post_data
        self.header = header

    def getHtmlText(self, is_cookie=False):
        if self.post_data == None and self.header == None:
            request = urllib2.Request(self.url_path)
        else:
            request = urllib2.Request(self.url_path, urllib.urlencode(self.post_data), self.header)
        response = urllib2.urlopen(request)
        if is_cookie: 
            self.operate = self.opener.open(request)
        resText = response.read()
        return resText

    """
    Save captcha to local    
    """    
    def saveCaptcha(self, captcha_url, outpath, save_mode='wb'):
        picture = self.opener.open(captcha_url).read() #用openr访问验证码地址,获取cookie
        local = open(outpath, save_mode)
        local.write(picture)
        local.close()    

    def getHtml(self, url):
        page = urllib.urlopen(url)
        html = page.read()
        return html


    """
    功能:将文本内容输出至本地
    @params
        content:文本内容
        out_path: 输出路径
    """
    def output(self, content, out_path, save_mode="w"):
        fw = open(out_path, save_mode)
        fw.write(content)
        fw.close()
        
    """#EXAMPLE
    logger = createLogger('mylogger', 'temp/logger.log')
    logger.debug('logger debug message')  
    logger.info('logger info message')  
    logger.warning('logger warning message')  
    logger.error('logger error message')  
    logger.critical('logger critical message')  
    """    
    def createLogger(self, logger_name, log_file):
        # 创建一个logger
        logger = logging.getLogger(logger_name)  
        logger.setLevel(logging.INFO)  

        # 创建一个handler,用于写入日志文件    
        fh = logging.FileHandler(log_file)  

        # 再创建一个handler,用于输出到控制台    
        ch = logging.StreamHandler()  
        # 定义handler的输出格式formatter    

        formatter = logging.Formatter('%(asctime)s | %(name)s | %(levelname)s | %(message)s')  
        fh.setFormatter(formatter)  
        ch.setFormatter(formatter)  
        # 给logger添加handler    

        logger.addHandler(fh)  
        logger.addHandler(ch)  
        return logger

Zhihu へのシミュレートされたログインのソース コードは、zhiHuLogin.py ファイルに保存されます。内容は次のとおりです:

# -*- coding: utf-8 -*-
"""
Created on Thu Nov 02 17:07:17 2016
@author: liudiwei

"""
import urllib
from WSpider import WSpider
from bs4 import BeautifulSoup as BS
import getpass
import json
import WLogger as WLog
"""
2016.11.03 由于验证码问题暂时无法正常登陆
2016.11.04 成功登录,期间出现下列问题
验证码错误返回:{ "r": 1, "errcode": 1991829, "data": {"captcha":"验证码错误"}, "msg": "验证码错误" }
验证码过期:{ "r": 1, "errcode": 1991829, "data": {"captcha":"验证码回话无效 :(","name":"ERR_VERIFY_CAPTCHA_SESSION_INVALID"}, "msg": "验证码回话无效 :(" }
登录:{"r":0, "msg": "登录成功"}
"""
def zhiHuLogin():
    spy = WSpider()
    logger = spy.createLogger('mylogger', 'temp/logger.log')
    homepage = r"https://www.zhihu.com/"    
    html = spy.opener.open(homepage).read()
    soup = BS(html, "html.parser")
    _xsrf = soup.find("input", {'type':'hidden'}).get("value")

    #根据email和手机登陆得到的参数名不一样,email登陆传递的参数是‘email',手机登陆传递的是‘phone_num'
    username = raw_input("Please input username: ")
    password = getpass.getpass("Please input your password: ")
    account_name = None
    if "@" in username:
        account_name = 'email'
    else:
        account_name = 'phone_num' 

    #保存验证码
    logger.info("save captcha to local machine.")
    captchaURL = r"https://www.zhihu.com/captcha.gif?type=login" #验证码url
    spy.saveCaptcha(captcha_url=captchaURL, outpath="temp/captcha.jpg") #temp目录需手动创建

    #请求的参数列表
    post_data = {
        '_xsrf': _xsrf,
        account_name: username,
        'password': password,
        'remember_me': 'true',
        'captcha':raw_input("Please input captcha: ")

    }

    #请求的头内容
    header ={
        'Accept':'*/*' ,
        'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
        'X-Requested-With':'XMLHttpRequest',
        'Referer':'https://www.zhihu.com/',
        'Accept-Language':'en-GB,en;q=0.8,zh-CN;q=0.6,zh;q=0.4',
        'Accept-Encoding':'gzip, deflate, br',
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36',
        'Host':'www.zhihu.com'
    }

    url = r"https://www.zhihu.com/login/" + account_name
    spy.setRequestData(url, post_data, header)
    resText = spy.getHtmlText()
    jsonText = json.loads(resText)

    if jsonText["r"] == 0:
        logger.info("Login success!")
    else:
        logger.error("Login Failed!")
        logger.error("Error info ---> " + jsonText["msg"])

    text = spy.opener.open(homepage).read() #重新打开主页,查看源码可知此时已经处于登录状态
    spy.output(text, "out/home.html") #out目录需手动创建

if __name__ == '__main__':
    zhiHuLogin()

ソース コード分析については、コード。

実行結果

コンソールで python zhiHuLogin.py を実行し、プロンプトに従って対応するコンテンツを入力します。最終的に、次のようなさまざまな結果が得られます (3 つの例が示されています):

結果 1: 間違ったパスワード

Python を使用して Zhihu へのシミュレートされたログインを実装する方法

結果 2: 間違った確認コード

Python を使用して Zhihu へのシミュレートされたログインを実装する方法

結果 3: ログイン成功

Python を使用して Zhihu へのシミュレートされたログインを実装する方法

以上がPython を使用して Zhihu へのシミュレートされたログインを実装する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はyisu.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。