目前在學習一些爬蟲的知識,對於一些複雜的網站使用selenium進行爬取。
碰到一個問題,我需要爬取的工單網站(不知道密碼)需要先透過登入一個鑑權系統,然後鑑權系統頁面點擊其中的工單系統連接,就會自動免登入跳轉到工單系統網站,這種系統的資料我該如何使用爬蟲進行抓取?
以下是鑑權系統selenium拿到關於工單系統的html
<a href="/link-test001" target="_blank" title="工单系统" rel="link-test001" data="1" datasrc="工单系统|||/files/link/test001.gif|||new|||/link-test001">
<img src="/files/link/test001.gif" width="25" height="25" alt="工单系统" align="absmiddle"><span>工单系统</span>
</a>
曾经蜡笔没有小新2017-05-19 10:09:30
例如使用requests函式庫作為爬蟲的話,先建立session(),A登錄,B是跳轉的頁面即可。
T=requests.session()
A=T.post(url=url,data=data)
B=T.get(url=url)
創建的T就代表儲存的cookie,會一直保留