首先我們要知道頁面資料內容有兩種方式(待爬資料只有2種):一,直接渲染出來的(基於mvc模板賦值到模板頁面的)二,透過介面取得然後JS渲染出來(接口回傳的)
然後你要找資料的話:
就看直接存取的位址能不能拿到有你想要的那些內容的文字 (基於mvc模板賦值到模板頁面的)
如果沒有,就看看是透過哪些介面取得到的
關於更進一步的鏈接,也是如此:
如果是直接渲染的可以透過xpath或csspath等第3方列庫來分離資料和標籤
如果不是直接渲染的話,JS 產生的連結你就要自己去根據他,需要拼湊的參數,拼湊好連結(帶上cookie)進行下一步的訪問
注意1:這樣如果你多次取不到值了,就應該去手工換一下cookie了
注意2:如果是接口的話,注意請求的url每天都要變,因為url上帶的參數都會變,不修改的話,爬不下來的(可以這樣將url入庫,爬的時候查出來,拼好參數,在丟給curl)
注意3:還有就是,不知道微信的限速問題,不是時效性高的話就10秒左右爬一輪就行了
最重要的是,有些東西,不是要先模擬登入才能爬去,登陸之後,直接找個介面在瀏覽器跑一下試試(如果有資料返回,那就證明只要帶cookie和請求需要帶的參數就可以了)就不用模擬掃碼了。
相關推薦:
以上是php爬資料curl實例詳解的詳細內容。更多資訊請關注PHP中文網其他相關文章!