首頁 >後端開發 >php教程 >php爬資料curl實例詳解

php爬資料curl實例詳解

首先我們要知道頁面資料內容有兩種方式（待爬資料只有2種）：一，直接渲染出來的（基於mvc模板賦值到模板頁面的）二，透過介面取得然後JS渲染出來（接口回傳的）

然後你要找資料的話：

就看直接存取的位址能不能拿到有你想要的那些內容的文字（基於mvc模板賦值到模板頁面的)

如果沒有，就看看是透過哪些介面取得到的

關於更進一步的鏈接，也是如此：

如果是直接渲染的可以透過xpath或csspath等第3方列庫來分離資料和標籤

如果不是直接渲染的話，JS 產生的連結你就要自己去根據他，需要拼湊的參數，拼湊好連結（帶上cookie）進行下一步的訪問

注意1：這樣如果你多次取不到值了，就應該去手工換一下cookie了

注意2：如果是接口的話，注意請求的url每天都要變，因為url上帶的參數都會變，不修改的話，爬不下來的（可以這樣將url入庫，爬的時候查出來，拼好參數，在丟給curl）

注意3：還有就是，不知道微信的限速問題，不是時效性高的話就10秒左右爬一輪就行了

最重要的是，有些東西，不是要先模擬登入才能爬去，登陸之後，直接找個介面在瀏覽器跑一下試試（如果有資料返回，那就證明只要帶cookie和請求需要帶的參數就可以了）就不用模擬掃碼了。

相關文章