python - 请教这个页面中的这两个信息能否不用无头浏览器爬取到?

Question

在爬取"http://www.haodf.com/doctor/DE4r08xQdKSLBVM8i9sHYQ8uQGIO.htm"这个页面的时候, 发现"擅长"和"执业经历"这两个信息通过beautifulsoup是取不到的, 我选取这两个信息的代码如下: {代码...} 查询页面发现这...

PHP中文网 · Answer

Mungkin pada halaman ini, data yang anda ingin tangkap dipaparkan menggunakan js selepas halaman dimuatkan. Dalam erti kata lain, data dalam #full_DoctorSpecialize
ini adalah ajax dan diambil dari pelayan. Khususnya bagaimana untuk mendapatkan data sedemikian, anda boleh memuat turun phantomjs dari Baidu, dan anda pasti akan mendapat sesuatu.

PHP中文网 · Answer

Dua maklumat ini boleh diperolehi secara langsung, tetapi maklumat tersebut terkandung dalam blok JS BigPipe.onPageletArrive({这个里面}) dan boleh diperolehi melalui ungkapan biasa. 这个里面 ialah rentetan dalam format JSON. Menukar kepada json selepas pemadanan adalah mudah untuk diproses. Jika anda ingin mendapatkannya melalui antara muka pertanyaan, ia sepatutnya boleh dilakukan, tetapi anda perlu menganalisis kod JS, yang terlalu menyusahkan Anda boleh menggunakan alat tangkapan paket untuk menangkap permintaan httpnya. Kemudian lihat data yang dikembalikan oleh permintaan itu. Sebagai perbandingan, adalah lebih pantas untuk menulis padanan biasa.

怪我咯 · Answer

Ini ialah pemaparan JS seperti yang dinyatakan di atas Kandungannya dalam kod JS Anda boleh memadankan elemen dalam kod JS secara kerap untuk mendapatkan maklumat yang anda inginkan

python - 请教这个页面中的这两个信息能否不用无头浏览器爬取到?

membalas semua(3)saya akan balas