1.我理解 爬虫主要的问题在于网络阻塞,所以使用多线程弥补HTTP异步等待。
那么使用了gevent
解决网络问阻塞题,就不需要使用多线程吗?
2.python多线程运行时,使用的是单核心,还是多核心?在多核心机器上运行
如果是单核心,能否同时使用多线程
与多进程
?
3.在4核心8线程的电脑上,开启单个进程32线程python运行,这些线程是怎么分配的?
4.当网络阻塞不是瓶颈,如何才能最大化使用单台电脑CPU?应该使用多线程还是多进程增大爬取速率?
5.使用消息队列分布式爬虫,等待的消息过多会不会存在内存或CPU问题?
6.使用消息队列是如何增大爬取速率的?
高洛峰2017-04-18 09:52:25
If you want to make full use of the CPU, use multi-process.
As for threads, I rarely use them.
In conjunction with coroutines, it is the multi-process + coroutine method. I remember that it is very fast. If you want to quickly use pypy or other high-performance python
multi-process, multi-thread, and coroutine, these can all be used together.