为什么感觉 pyspider 爬取的速度好慢(比自己直接用 requests 和 bs慢多了),是不是因为有些网页会 retry,不过成功率倒是比自己爬取的高多了。是不是我的使用方法不对?求解释
迷茫2017-04-18 10:33:39
여기에서 웹 UI 콘솔의 rate/burst 매개변수를 설정하여 속도를 조정할 수 있습니다. Rate는 초당 크롤링 횟수이고, 버스트(burst)는 동시성 횟수이므로 상대적입니다. 느리네요. 아직 이 도구에 대해 잘 모르겠습니다.
高洛峰2017-04-18 10:33:39
크롤러를 작성하기 위해 프레임워크를 사용한 적은 없지만, 크롤러를 직접 작성할 때 모델(스레드 제어, 스레드 상태 모니터링 등)이 복잡할수록 동시 작성 시 효율성이 떨어집니다.