搜尋

首頁  >  問答  >  主體

python - 用scrapy寫爬蟲,發送請求後,伺服器全都直接返回202,該怎麼辦呢?

我爬取的是中國裁判文書網,之前還是好好的,我發送請求,伺服器返回200,然後我處理body中的資料

但是一個星期之前,突然所有的請求都返回202,然後response body裡也是空的,完全拿不到數據,我在回調函數中阻塞等待while(response.status == 202)就sleep也沒用,status並不會改變

該怎麼辦呢?

我使用了crwalera的ip代理服務,之前有段時間也是202,但是過了一天就好了,但這次已經持續了一個星期了,很奇怪

我覺得就是目標網站負載太大,所以採用異步的方式發送資料,但是我在scrapy裡有怎麼正確地收到他的資料呢?

黄舟黄舟2707 天前1617

全部回覆(2)我來回復

  • 欧阳克

    欧阳克2017-06-28 09:27:09

    這種情況通常是違規抓取,服務端進行了防抓取限制。如果是合法抓取的話,可以和內容方面溝通,看看是不是有誤傷,如果是非法抓取,還建議不要這樣做了,嚴重的話可能有被起訴的風險

    回覆
    0
  • 过去多啦不再A梦

    过去多啦不再A梦2017-06-28 09:27:09

    被防採集了,可以試試換ip或尋找防採的限制漏洞

    回覆
    0
  • 取消回覆