Rumah > Soal Jawab > teks badan
需要爬取三峡水库的实时水情数据,可以在网页中选择日期显示水情信息,如果一天天选择再复制数据发现很是耗时,我现在需要将下图中三峡水利枢纽2014年-2016年每天的数据爬下来。
网址如下:
http://www.ctgpc.com.cn/sxjt/...
通过浏览器自带的检查工具,右键检查元素,查看 network,查看调用的 ajax API 地址:初步分析后发现是通过ajax调用了以下网址,并用POST传递了一个日期数据,例如今天2017-02-15给该网址:
http://www.ctgpc.com.cn/eport...
Header如下:
Response如下:
之前有搜索到类似的问题:https://segmentfault.com/q/10...
但是按照回答并没能解决我的疑惑,因此在这里求助各位前辈,麻烦大家了
伊谢尔伦2017-04-18 10:21:32
Anda boleh menggunakan perpustakaan permintaan untuk mensimulasikan penyerahan pos. Daripada alat pemeriksaan penyemak imbas, anda boleh melihat bahawa parameter yang diluluskan ialah masa:2017-02-07. Tentukan data={"masa": tarikh seperti 2017-02-07}. Kemudian anda boleh menulis gelung yang melingkari tarikh dan menambah satu hari padanya. Kemudian hanya r = requests.post("url", data=data, header=****)
. Keluarkan data dan simpan ke dalam pangkalan data. Jika setiap kitaran terlalu perlahan, anda boleh menambah gevent, perpustakaan coroutine, untuk mempercepatkan proses Jika anda ingin menangkap data selama 2 tahun, kitaran 365*2 kali dan ia akan menjadi OK
迷茫2017-04-18 10:21:32
Tangkap paket, kemudian simulasikan siaran atau dapatkan
Lihat kandungan berikut
Video dan kod perkataan persatuan perangkak Python
https://zhuanlan.zhihu.com/p/...
Pelajari perangkak Python untuk menangkap IP proksi dan pengesahan daripada Brother Huang.
https://zhuanlan.zhihu.com/p/...
Ketahui IP perangkak perangkak Python daripada Brother Huang
https://zhuanlan.zhihu.com/p/...