cari

Rumah  >  Soal Jawab  >  teks badan

python - 爬虫在运行一段时间后开始不断获得504的StatusCode,是否是对方站点的反爬虫策略导致?有何回避策略?

最近初学用Python写网页爬虫视图扒取一个站点上的特定数据。

最近碰到的一个现象是,当爬虫运行了一段时间后(根据Fiddler抓包的结果来看,大概是发送了将近3万个http请求后),爬虫的获取的http响应的StatusCode骤然都变成了 504, 之后就再也获取不到200的响应了。

想请教一下各位大神,这种现象是否是由于扒取对象的站点的反爬虫策略造成的?

如果是的话,有什么常用的回避策略么?

P.S.
还注意到一个现象,不知与上述现象是否有关,一并描述:
即当爬虫的响应变成504之后,发现我的浏览器的代理选项被自动勾上了,如下所示:

巴扎黑巴扎黑2824 hari yang lalu1052

membalas semua(6)saya akan balas

  • PHP中文网

    PHP中文网2017-04-17 17:27:54

    Pilihan proksi ditandakan, yang disebabkan oleh pemain biola. Pada masa lalu, saya sering menggunakan fiddler untuk menangkap paket Selepas tempoh masa, saya tidak dapat mengakses rangkaian Menyahtanda pilihan proksi menyelesaikan masalah

    balas
    0
  • ringa_lee

    ringa_lee2017-04-17 17:27:54

    Anda boleh memberi perhatian kepada komponen sumber terbuka yang saya tulis, menyediakan kumpulan pelayan proksi untuk menghalang penyekatan strategi anti perangkak dan melaraskan kekerapan permintaan secara automatik, mengendalikan permintaan yang tidak normal dan memberi keutamaan kepada ejen dengan respons pantas . https://github.com/letcheng/ProxyPool

    balas
    0
  • PHP中文网

    PHP中文网2017-04-17 17:27:54

    1.Ejen

    2. Simulasikan permintaan lengkap

    3. Selang yang munasabah

    4.pemutus sambungan dan dail semula adsl

    balas
    0
  • PHPz

    PHPz2017-04-17 17:27:54

    Kaedah:
    Tukar IP dan gunakan IP proksi Terdapat banyak yang percuma dan berbayar dalam talian
    IP Percuma: http://www.uuip.net/
    IP Berbayar: http://www.daili666.net/

    .

    balas
    0
  • 迷茫

    迷茫2017-04-17 17:27:54

    Cuba akses melalui proksi

    balas
    0
  • 天蓬老师

    天蓬老师2017-04-17 17:27:54

    Mengapa jawapan kepada soalan ini seperti ini?

    balas
    0
  • Batalbalas