recherche

Maison  >  Questions et réponses  >  le corps du texte

网页爬虫 - python爬虫速率的疑问,小白求解

优化网络:

1.我理解 爬虫主要的问题在于网络阻塞,所以使用多线程弥补HTTP异步等待。
那么使用了gevent解决网络问阻塞题,就不需要使用多线程吗?

优化CPU:

2.python多线程运行时,使用的是单核心,还是多核心?在多核心机器上运行如果是单核心,能否同时使用多线程多进程

3.在4核心8线程的电脑上,开启单个进程32线程python运行,这些线程是怎么分配的?

4.当网络阻塞不是瓶颈,如何才能最大化使用单台电脑CPU?应该使用多线程还是多进程增大爬取速率?

5.使用消息队列分布式爬虫,等待的消息过多会不会存在内存或CPU问题?

6.使用消息队列是如何增大爬取速率的?

高洛峰高洛峰2837 Il y a quelques jours678

répondre à tous(1)je répondrai

  • 高洛峰

    高洛峰2017-04-18 09:52:25

    Pour utiliser pleinement le CPU, utilisez le multi-processus
    Quant aux threads, je les utilise rarement
    lorsque je travaille avec des coroutines, c'est-à-dire la méthode multi-processus + coroutine, je me souviens que c'est le cas. très vite. Ensuite, utilisez rapidement pypy ou un autre python hautes performances
    multi-processus, multi-thread et coroutine. Ceux-ci peuvent tous être utilisés ensemble.

    répondre
    0
  • Annulerrépondre