python - 请教这个页面中的这两个信息能否不用无头浏览器爬取到?

Question

在爬取"http://www.haodf.com/doctor/DE4r08xQdKSLBVM8i9sHYQ8uQGIO.htm"这个页面的时候, 发现"擅长"和"执业经历"这两个信息通过beautifulsoup是取不到的, 我选取这两个信息的代码如下: {代码...} 查询页面发现这...

PHP中文网 · Answer

可能這個頁面，你要抓的這個數據，是頁面載入後，使用js渲染出來的。也就是說，這個#full_DoctorSpecialize
裡面的資料是ajax，從伺服器拿回來的。具體要如何拿這樣的數據，你可以百度下 phantomjs ，你一定會有收穫的。

PHP中文网 · Answer

這2個資訊可以直接獲取，只是資訊包含在JS塊中BigPipe.onPageletArrive({这个里面}) , 可以通过正则表达式获取。这个里面是一段JSON格式的字符串。匹配之後轉換為json還是很容易處理的。想要透過查詢接口獲取的話，應該是可以的，不過得分析JS程式碼，這個太麻煩，可以透過抓包工具來抓它的http請求。

怪我咯 · Answer

這個就像樓上說的是js渲染的，內容在js程式碼裡面，可以正規匹配js程式碼裡面的元素，得到你想要的資訊

python - 请教这个页面中的这两个信息能否不用无头浏览器爬取到?

全部回覆(3)我來回復