Python 크롤러의 구문 분석 효율성을 향상시키는 방법은 무엇입니까?

Question

현재 사용되는 것은 Windows 환경에서 beautifulsoup+lxml을 사용하여 파싱하는 방식으로 멀티스레드 방식으로 크롤링하는 것입니다. N 크롤링 스레드->파싱 큐->1 파싱 스레드->저장 큐->1 효율성 스토리지 스레드의 전체 실행 중 30%가 계산 집약적인 구문 분석 스레드에 갇혀 있습니다.

为情所困 · Answer

사실 님이 먼저 다시 작성하신 것 같은데N个爬取线程 可以换成协程/线程池实现, 因为你在频繁创建线程本省一种性能耗费, 用线程池虽然可以减少这部分的损耗, 但是上下文切换还是无法避免, 所以协程这方面, 应该是比较合适的.
1个解析线程 换成 进程池,多开几个进程去计算密集处理, 其余应该可以不用改, 如果还想再搞, 将核心部分用c/c++ 도움이 되셨으면 좋겠습니다

怪我咯 · Answer

내 접근 방식은 다중 프로세스입니다. 다중 프로세스의 장점은 단일 머신의 성능이 충분하지 않을 때 언제든지 분산 크롤러로 전환할 수 있다는 것입니다.

淡淡烟草味 · Answer

온라인에서 Tornade 비동기 크롤러를 찾을 수 있는데 저는 이것을 사용하고 있습니다

Python 크롤러의 구문 분석 효율성을 향상시키는 방법은 무엇입니까?

모든 응답(3)나는 대답할 것이다