python - 我写的Xpath 为什么爬取不到内容

Question

-- coding:utf-8 -- import lxml,requests,sysfrom bs4 import BeautifulSoupfrom lxml import etree reload(sys)sys.setdefaultencoding("utf-8") def main(): {代码...} # soup = BeautifulSoup(req.conte

天蓬老师 · Answer

在寫爬蟲的時候，使用xpath一定要確認網頁的源代碼中是否有數據，如果沒有，說明是異步加載的

1. 瀏覽器輸入這個連線即可看原始碼，ctrl+f 找出imgid所在的位置

view-source:https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E6%9A%B4%E8%B5%B0%E6%BC%AB%E7%94%BB&pn=0

2. 發現

並沒有找到下面的圖片列表，我們可以判定圖片是js載入的

3. 尋找

F12看network(刷新才能看到)，並沒有發現異步請求加載的圖片信息，於是我猜測數據應該就在html裡，不過是放在js裡，在加載圖片的時候處理了

同樣是上面的查看原始碼的方式，查找objURL這個參數發現了真實的url

//很多，集中在html下半部分
http://img3.duitang.com/uploads/item/201608/06/20160806110540_MAcru.jpeg

解決

剩下的就交給你啦～去想辦法解析出下面部分的真實url吧!

python - 我写的Xpath 为什么爬取不到内容

-- coding:utf-8 --

全部回覆(1)我來回復

1. 瀏覽器輸入這個連線即可看原始碼，ctrl+f 找出imgid所在的位置

2. 發現

3. 尋找

解決