Rumah > Soal Jawab > teks badan
最近初学用Python写网页爬虫视图扒取一个站点上的特定数据。
最近碰到的一个现象是,当爬虫运行了一段时间后(根据Fiddler抓包的结果来看,大概是发送了将近3万个http请求后),爬虫的获取的http响应的StatusCode骤然都变成了 504, 之后就再也获取不到200的响应了。
想请教一下各位大神,这种现象是否是由于扒取对象的站点的反爬虫策略造成的?
如果是的话,有什么常用的回避策略么?
P.S.
还注意到一个现象,不知与上述现象是否有关,一并描述:
即当爬虫的响应变成504之后,发现我的浏览器的代理选项被自动勾上了,如下所示:
PHP中文网2017-04-17 17:27:54
Pilihan proksi ditandakan, yang disebabkan oleh pemain biola. Pada masa lalu, saya sering menggunakan fiddler untuk menangkap paket Selepas tempoh masa, saya tidak dapat mengakses rangkaian Menyahtanda pilihan proksi menyelesaikan masalah
ringa_lee2017-04-17 17:27:54
Anda boleh memberi perhatian kepada komponen sumber terbuka yang saya tulis, menyediakan kumpulan pelayan proksi untuk menghalang penyekatan strategi anti perangkak dan melaraskan kekerapan permintaan secara automatik, mengendalikan permintaan yang tidak normal dan memberi keutamaan kepada ejen dengan respons pantas . https://github.com/letcheng/ProxyPool
PHP中文网2017-04-17 17:27:54
1.Ejen
2. Simulasikan permintaan lengkap
3. Selang yang munasabah
4.pemutus sambungan dan dail semula adsl
PHPz2017-04-17 17:27:54
Kaedah:
Tukar IP dan gunakan IP proksi Terdapat banyak yang percuma dan berbayar dalam talian
IP Percuma: http://www.uuip.net/
IP Berbayar: http://www.daili666.net/