搜尋

首頁  >  問答  >  主體

python - 如何爬取跳轉網站的數據

目前在學習一些爬蟲的知識,對於一些複雜的網站使用selenium進行爬取。
碰到一個問題,我需要爬取的工單網站(不知道密碼)需要先透過登入一個鑑權系統,然後鑑權系統頁面點擊其中的工單系統連接,就會自動免登入跳轉到工單系統網站,這種系統的資料我該如何使用爬蟲進行抓取?
以下是鑑權系統selenium拿到關於工單系統的html

<a href="/link-test001" target="_blank" title="工单系统" rel="link-test001" data="1" datasrc="工单系统|||/files/link/test001.gif|||new|||/link-test001">
    <img src="/files/link/test001.gif" width="25" height="25" alt="工单系统" align="absmiddle"><span>工单系统</span>
</a>
怪我咯怪我咯2754 天前1029

全部回覆(2)我來回復

  • 漂亮男人

    漂亮男人2017-05-19 10:09:30

    用firefox的擴充selenium ide錄製一遍操作。
    然後匯出為python檔案。
    改改運作就可以了。

    建議你去讀讀蟲師寫的書。

    回覆
    0
  • 曾经蜡笔没有小新

    曾经蜡笔没有小新2017-05-19 10:09:30

    例如使用requests函式庫作為爬蟲的話,先建立session(),A登錄,B是跳轉的頁面即可。

    T=requests.session()
    A=T.post(url=url,data=data)
    B=T.get(url=url)

    創建的T就代表儲存的cookie,會一直保留

    回覆
    0
  • 取消回覆