중국 판결 문서 네트워크를 크롤링했는데 이전에는 괜찮았는데 요청을 보냈더니 서버가 200을 반환하고 나서 본문에서 데이터를 처리했습니다
근데 일주일 전에 갑자기 모든 요청이 202를 반환했는데 응답 본문도 비어 있었고 데이터를 전혀 얻을 수 없었습니다. (response.status == 202) 동안 콜백 함수를 차단하고 기다렸다가 잠도 잤습니다. 아무 소용이 없습니다.
어떻게 해야 하나요?
크왈레라 IP프록시 서비스를 이용했는데 예전에도 202였는데 하루 지나니 좋아지더니 이번에는 일주일 정도 지속되서 참 이상하네요
대상 웹사이트의 부하가 너무 많은 것 같아서 비동기 방식으로 데이터를 전송하는데, 어떻게 하면 scrapy에서 데이터를 올바르게 받을 수 있나요?
欧阳克2017-06-28 09:27:09
이 상황은 일반적으로 불법 크롤링으로 인해 발생하며 서버에서는 크롤링 방지 제한을 구현했습니다. 합법적으로 캡쳐한 경우 콘텐츠 부서에 연락하여 우발적인 피해가 있는지 확인할 수 있습니다. 불법으로 캡쳐한 경우에는 기소될 위험이 있으므로 이러한 행위는 하지 않는 것이 좋습니다.