パケットをキャプチャするとき、最初は Chrome 開発ツールの Network を使用しましたが、キャプチャに失敗しました。その後、Fiddler を使用してデータを正常にキャプチャしました。上記のプロセスについては、以下で段階的に詳しく説明します。
Zhihu ログインをシミュレートする前に、まずこのケースで使用される環境とツールを確認してください:
Windows 7 Python 2.75
Chrome Fiddler: クライアントとサーバー間の通信を監視し、関連するパラメーターの場所を見つけるために使用されます。
Google ブラウザと Fiddler を組み合わせて、クライアントとサーバー間の通信プロセスを監視します。
監視結果に従って、サーバーへのリクエストのプロセスで渡されるパラメータを構築します。
このページを見ると、サーバーへのリクエスト時にいくつかのフィールドが渡されることが大まかに推測できます。明らかに、ユーザー名、パスワード、確認コード、およびこれらの値を「覚えておく」必要があります。 。それで、実際にはどれが存在するのでしょうか?以下で分析してみましょう。
最初に HTML ソース コードを確認します。CTRL U を使用して Google で表示し、次に CTRL F を使用して入力して、どのようなフィールド値があるかを確認できます。詳細は次のとおりです:
サーバーにリクエストするとき、ソースコードは隠しフィールド「_xsrf」も存在することを示しています。ここで問題となるのは、パラメータがどのような名前で渡されるかであるため、分析のためにデータ パケットをキャプチャするには他のツールを使用する必要があります。ここでは、Windows システムで動作する Fiddler を使用します。もちろん、他のツールを使用することもできます。
パケット キャプチャから得られる情報が大量になるため、必要な情報を見つけることがより困難になり、パケット キャプチャ プロセスがより煩雑になります。 fiddler の使い方は非常に簡単なので、未経験の方は Baidu で検索してみてください。他の情報の干渉を防ぐために、まず fiddler のレコードをクリアし、次にユーザー名 (作成者は電子メールを使用してログインします)、パスワード、およびその他の情報を入力してログインします。fiddler での対応する結果は次のようになります。
注: 携帯電話を使用してログインする場合、fiddler の対応する URL は「/login/phone_num」です。
詳細なリクエスト パラメーターを表示するには、「/login/email」を左クリックすると、次の情報が表示されます:
リクエストメソッドは POST、要求された URL は
https://www.zhihu.com/login/email です。 From Data からわかるように、対応するフィールド名は次のとおりです:
検証コードについては、追加のリクエストが必要です。リンクは、固定ポイントでソース コードを表示することで確認できます:
# #リンクは
https://www.zhihu.com/captcha.gif?type=login です。ここでは ts は省略されています (テスト後に省略できます)。コードを使用してログインをシミュレートできるようになりました。
注意事項: 携帯電話番号を使用してログインする場合、要求される URL は https://www.zhihu.com/login/phone_num
であり、電子メール フィールド名は「phone_num」になります。
シミュレーション ソース コードZhihu ログインを実装するコードを作成するプロセスで、作成者は再利用のためにいくつかの関数を単純なクラス WSpider にカプセル化しました。ファイル名は WSpider.py です。
# -*- coding: utf-8 -*- """ Created on Thu Nov 02 14:01:17 2016 @author: liudiwei """ import urllib import urllib2 import cookielib import logging class WSpider(object): def __init__(self): #init params self.url_path = None self.post_data = None self.header = None self.domain = None self.operate = None #init cookie self.cookiejar = cookielib.LWPCookieJar() self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookiejar)) urllib2.install_opener(self.opener) def setRequestData(self, url_path=None, post_data=None, header=None): self.url_path = url_path self.post_data = post_data self.header = header def getHtmlText(self, is_cookie=False): if self.post_data == None and self.header == None: request = urllib2.Request(self.url_path) else: request = urllib2.Request(self.url_path, urllib.urlencode(self.post_data), self.header) response = urllib2.urlopen(request) if is_cookie: self.operate = self.opener.open(request) resText = response.read() return resText """ Save captcha to local """ def saveCaptcha(self, captcha_url, outpath, save_mode='wb'): picture = self.opener.open(captcha_url).read() #用openr访问验证码地址,获取cookie local = open(outpath, save_mode) local.write(picture) local.close() def getHtml(self, url): page = urllib.urlopen(url) html = page.read() return html """ 功能:将文本内容输出至本地 @params content:文本内容 out_path: 输出路径 """ def output(self, content, out_path, save_mode="w"): fw = open(out_path, save_mode) fw.write(content) fw.close() """#EXAMPLE logger = createLogger('mylogger', 'temp/logger.log') logger.debug('logger debug message') logger.info('logger info message') logger.warning('logger warning message') logger.error('logger error message') logger.critical('logger critical message') """ def createLogger(self, logger_name, log_file): # 创建一个logger logger = logging.getLogger(logger_name) logger.setLevel(logging.INFO) # 创建一个handler,用于写入日志文件 fh = logging.FileHandler(log_file) # 再创建一个handler,用于输出到控制台 ch = logging.StreamHandler() # 定义handler的输出格式formatter formatter = logging.Formatter('%(asctime)s | %(name)s | %(levelname)s | %(message)s') fh.setFormatter(formatter) ch.setFormatter(formatter) # 给logger添加handler logger.addHandler(fh) logger.addHandler(ch) return logger
# -*- coding: utf-8 -*- """ Created on Thu Nov 02 17:07:17 2016 @author: liudiwei """ import urllib from WSpider import WSpider from bs4 import BeautifulSoup as BS import getpass import json import WLogger as WLog """ 2016.11.03 由于验证码问题暂时无法正常登陆 2016.11.04 成功登录,期间出现下列问题 验证码错误返回:{ "r": 1, "errcode": 1991829, "data": {"captcha":"验证码错误"}, "msg": "验证码错误" } 验证码过期:{ "r": 1, "errcode": 1991829, "data": {"captcha":"验证码回话无效 :(","name":"ERR_VERIFY_CAPTCHA_SESSION_INVALID"}, "msg": "验证码回话无效 :(" } 登录:{"r":0, "msg": "登录成功"} """ def zhiHuLogin(): spy = WSpider() logger = spy.createLogger('mylogger', 'temp/logger.log') homepage = r"https://www.zhihu.com/" html = spy.opener.open(homepage).read() soup = BS(html, "html.parser") _xsrf = soup.find("input", {'type':'hidden'}).get("value") #根据email和手机登陆得到的参数名不一样,email登陆传递的参数是‘email',手机登陆传递的是‘phone_num' username = raw_input("Please input username: ") password = getpass.getpass("Please input your password: ") account_name = None if "@" in username: account_name = 'email' else: account_name = 'phone_num' #保存验证码 logger.info("save captcha to local machine.") captchaURL = r"https://www.zhihu.com/captcha.gif?type=login" #验证码url spy.saveCaptcha(captcha_url=captchaURL, outpath="temp/captcha.jpg") #temp目录需手动创建 #请求的参数列表 post_data = { '_xsrf': _xsrf, account_name: username, 'password': password, 'remember_me': 'true', 'captcha':raw_input("Please input captcha: ") } #请求的头内容 header ={ 'Accept':'*/*' , 'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8', 'X-Requested-With':'XMLHttpRequest', 'Referer':'https://www.zhihu.com/', 'Accept-Language':'en-GB,en;q=0.8,zh-CN;q=0.6,zh;q=0.4', 'Accept-Encoding':'gzip, deflate, br', 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36', 'Host':'www.zhihu.com' } url = r"https://www.zhihu.com/login/" + account_name spy.setRequestData(url, post_data, header) resText = spy.getHtmlText() jsonText = json.loads(resText) if jsonText["r"] == 0: logger.info("Login success!") else: logger.error("Login Failed!") logger.error("Error info ---> " + jsonText["msg"]) text = spy.opener.open(homepage).read() #重新打开主页,查看源码可知此时已经处于登录状态 spy.output(text, "out/home.html") #out目录需手动创建 if __name__ == '__main__': zhiHuLogin()
ソース コード分析については、コード。
コンソールで python zhiHuLogin.py を実行し、プロンプトに従って対応するコンテンツを入力します。最終的に、次のようなさまざまな結果が得られます (3 つの例が示されています):
以上がPython を使用して Zhihu へのシミュレートされたログインを実装する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。