Home  >  Q&A  >  body text

java - 讨论一下Python线程池大小设置?

在Java中,线程池大小通常被设置成CPU核心数+1,《Java Concurrency In Practise》8.2节中有这么一段话:

对于计算密集型的任务,在拥有N个处理器的系统上,当线程池的大小为N+1时,通常能实现最优的效率。(即使当计算密集型的线程偶尔由于缺失故障或者其他原因而暂停时,这个额外的线程也能确保CPU的时钟周期不会被浪费。)

btw: 不太熟悉Java,网上引用,没经过实践。

并发编程网上也有一篇相关的文章,要点如下:

最佳线程数目 = ((线程等待时间+线程CPU时间)/线程CPU时间 )* CPU数目

线程等待时间所占比例越高,需要越多线程。线程CPU时间所占比例越高,需要越少线程。

疑问:对于n核和2n线程的处理器有什么需要注意的地方?


问题

以上都是引用自Java,Python方面的资料相对较少,所以想讨论一下。

由于CPython中GIL存在,Python同一时刻只能运行一个线程,所以这里不讨论计算型任务,只看IO型任务,Python线程池大小应该怎么设置才算合理?(IO最好的办法是采用异步,主要想讨论下不支持异步的情形)

大家讲道理大家讲道理2765 days ago647

reply all(1)I'll reply

  • 天蓬老师

    天蓬老师2017-04-18 10:20:10

    How to estimate the number of processes that need to be set up for srv?
    Principle
    The sum of the memory occupied by each process needs to be less than the total memory

    • IO-intensive
      Involves some blocking network communication overhead, the number of processes can be increased, for example, configured to 3 times the number of CPU cores. If the business involves a lot of blocking network overhead, you can appropriately increase the number of processes, for example, 5 times the number of CPU cores or even higher.

    • CPU-intensive
      That is, there is no external network IO overhead, or no blocking network IO overhead. For example, if asynchronous IO is used to read network resources and the process will not be blocked by business code, the number of processes can be set to equal to the CPU The number of cores is the same.


    The central idea is whether the bottleneck of your response is io or CPU.

    • If your response bottleneck is CPU

      现在程序是 python 线程模式,你只能用到 N 个 CPU 中的一个,理论上你开多少个线程和开单线程是没有区别的,而且你只能跑的多核 CPU 中一个 CPU 100% 的利用率。而实际上,如果你开了多于 2 个线程,还会存在 CPU 调度的问题(上下文的保存等消耗),可能会比单核心略慢。   
      
    • If your response bottleneck is in IO (such as: network IO)

      这就和其他语言一般的设置没有区别,主要是 比较 XN + 1(X 倍于 N 核心 CPU)先成为瓶颈还是 CPU 负载先成为瓶颈,因为如果成为了瓶颈之后,你再开多少线程对于程序的响应都是没有提高的(反而有可能下降)。
      

    reply
    0
  • Cancelreply