python - 我写的Xpath 为什么爬取不到内容

Question

-- coding:utf-8 -- import lxml,requests,sysfrom bs4 import BeautifulSoupfrom lxml import etree reload(sys)sys.setdefaultencoding("utf-8") def main(): {代码...} # soup = BeautifulSoup(req.conte

天蓬老师 · Answer

クローラーを作成するときは、Web ページのソースコードにデータがあるかどうかを xpath を使用して確認する必要があります。ない場合は、非同期で読み込まれていることを意味します

。

1. ブラウザにこのリンクを入力してソースコードを表示し、Ctrl+F を押して imgid の場所を見つけます

リーリー

2. 発見

以下の画像リストは見つかりませんでした。画像はjsによって読み込まれていると判断できます

3. 見つける

F12でネットワークを見てみると（更新しないと見れません）、非同期リクエストで読み込んだ画像情報が見つからなかったので、データはhtmlにあるはずだと推測しましたが、jsに置いて処理していました画像を読み込むとき

上記と同様にソースコードを表示し、パラメータobjURLを検索して実際のURLを見つけます

リーリー

解決策

残りはあなた次第です ~ 以下の実際の URL を解析する方法を見つけてください

python - 我写的Xpath 为什么爬取不到内容

-- coding:utf-8 --

全員に返信(1)返信します

1. ブラウザにこのリンクを入力してソースコードを表示し、Ctrl+F を押して imgid の場所を見つけます

2. 発見

3. 見つける

解決策