這篇文章主要介紹了Python實現爬取需要登入的網站,結合完整實例形式分析了Python登陸網站及資料抓取相關操作技巧,需要的朋友可以參考下
本文實例講述了Python爬取需要登入的網站實作方法。分享給大家參考,具體如下:
import requests from lxml import html # 创建 session 对象。这个对象会保存所有的登录会话请求。 session_requests = requests.session() # 提取在登录时所使用的 csrf 标记 login_url = "https://bitbucket.org/account/signin/?next=/" result = session_requests.get(login_url) tree = html.fromstring(result.text) authenticity_token = list(set(tree.xpath("//input[@name='csrfmiddlewaretoken']/@value")))[0] payload = { "username": "<你的用户名>", "password": "<你的密码>", "csrfmiddlewaretoken": authenticity_token # 在源代码中,有一个名为 “csrfmiddlewaretoken” 的隐藏输入标签。 } # 执行登录 result = session_requests.post( login_url, data = payload, headers = dict(referer=login_url) ) # 已经登录成功了,然后从 bitbucket dashboard 页面上爬取内容。 url = 'https://bitbucket.org/dashboard/overview' result = session_requests.get( url, headers = dict(referer = url) ) # 测试爬取的内容 tree = html.fromstring(result.content) bucket_elems = tree.findall(".//span[@class='repo-name']/") bucket_names = [bucket.text_content.replace("n", "").strip() for bucket in bucket_elems] print(bucket_names)
以上是Python如何實現爬取需要登入的網站程式碼實例的詳細內容。更多資訊請關注PHP中文網其他相關文章!