python - 请教这个页面中的这两个信息能否不用无头浏览器爬取到?

Question

在爬取"http://www.haodf.com/doctor/DE4r08xQdKSLBVM8i9sHYQ8uQGIO.htm"这个页面的时候, 发现"擅长"和"执业经历"这两个信息通过beautifulsoup是取不到的, 我选取这两个信息的代码如下: {代码...} 查询页面发现这...

PHP中文网 · Answer

おそらくこのページでは、キャプチャしたいデータは、ページが読み込まれた後に js を使用してレンダリングされます。つまり、この #full_DoctorSpecialize
のデータはサーバーから取得された ajax です。そのようなデータを具体的にどのように取得するかというと、Baidu から phantomjs をダウンロードすると、必ず何かが得られます。

PHP中文网 · Answer

この2つの情報は直接取得することもできますが、JSブロックBigPipe.onPageletArrive({这个里面}) , 可以通过正则表达式获取。这个里面はJSON形式の文字列です。マッチング後、簡単にjsonに変換できます。取得したい場合は、クエリインターフェイスを使用することは可能ですが、JS コードを分析する必要があるため、パケットキャプチャツールを使用して http リクエストをキャプチャし、リクエストによって返されたデータを比較することができます。、通常の一致を作成する方が高速です。

怪我咯 · Answer

これは、js によってレンダリングされる上記のようなものです。コンテンツは js コード内にあり、必要な情報を取得するために、js コード内の要素を定期的に照合できます。

python - 请教这个页面中的这两个信息能否不用无头浏览器爬取到?

全員に返信(3)返信します