recherche

Maison  >  Questions et réponses  >  le corps du texte

pyspider 遇到防爬页面怎么处理?

遇到页面防爬,返回页面说需要验证是否是机器人输入验证码这种情况要怎么处理?这时候这个页面返回的是200,爬虫认为正常爬过页面了,但是实际并没有获得有效数据。是通过判断抓没抓到数据,然后抛异常重新爬吗?这种情应该怎么处理

不知道我通过抛异常重爬这种方法是否正确?


高洛峰高洛峰2948 Il y a quelques jours568

répondre à tous(1)je répondrai

  • 三叔

    三叔2016-11-04 10:43:32

    我认为应该加上相应的header信息,伪装成浏览器来进行访问。

    répondre
    0
  • Annulerrépondre