찾다

 >  Q&A  >  본문

python - scrapy를 사용하여 크롤러를 작성하면 서버가 모두 202를 직접 반환합니다.

중국 판결 문서 네트워크를 크롤링했는데 이전에는 괜찮았는데 요청을 보냈더니 서버가 200을 반환하고 나서 본문에서 데이터를 처리했습니다

근데 일주일 전에 갑자기 모든 요청이 202를 반환했는데 응답 본문도 비어 있었고 데이터를 전혀 얻을 수 없었습니다. (response.status == 202) 동안 콜백 함수를 차단하고 기다렸다가 잠도 잤습니다. 아무 소용이 없습니다.

어떻게 해야 하나요?

크왈레라 IP프록시 서비스를 이용했는데 예전에도 202였는데 하루 지나니 좋아지더니 이번에는 일주일 정도 지속되서 참 이상하네요

대상 웹사이트의 부하가 너무 많은 것 같아서 비동기 방식으로 데이터를 전송하는데, 어떻게 하면 scrapy에서 데이터를 올바르게 받을 수 있나요?

黄舟黄舟2707일 전1620

모든 응답(2)나는 대답할 것이다

  • 欧阳克

    欧阳克2017-06-28 09:27:09

    이 상황은 일반적으로 불법 크롤링으로 인해 발생하며 서버에서는 크롤링 방지 제한을 구현했습니다. 합법적으로 캡쳐한 경우 콘텐츠 부서에 연락하여 우발적인 피해가 있는지 확인할 수 있습니다. 불법으로 캡쳐한 경우에는 기소될 위험이 있으므로 이러한 행위는 하지 않는 것이 좋습니다.

    회신하다
    0
  • 过去多啦不再A梦

    过去多啦不再A梦2017-06-28 09:27:09

    수집이 막혔을 경우, IP 주소를 변경하거나 허점을 찾아 수확을 막을 수 있습니다

    회신하다
    0
  • 취소회신하다