Qu'est-ce que le multithread Python et comment l'utiliser

Qu'est-ce qu'un fil de discussion ? Pourquoi tu le veux ?

À la base, Python est un langage linéaire, mais le module de threading s'avère pratique lorsque vous avez besoin de plus de puissance de traitement. Bien que les threads en Python ne puissent pas être utilisés pour le calcul parallèle du processeur, ils sont bien adaptés aux opérations d'E/S telles que le web scraping, car le processeur est inactif et attend des données.

Les threads changent la donne, car de nombreux scripts liés aux E/S réseau/données passent la plupart de leur temps à attendre des données provenant de sources distantes. Étant donné que les téléchargements peuvent être dissociés (c'est-à-dire explorer des sites Web distincts), le processeur peut télécharger en parallèle à partir de différentes sources de données et fusionner les résultats à la fin. Pour les processus gourmands en CPU, l’utilisation du module thread présente peu d’avantages.

Quest-ce que le multithread Python et comment lutiliser

Heureusement, les threads sont inclus dans la bibliothèque standard :

import threading
from queue import Queue
import time

Vous pouvez utiliser target comme objet appelable et args pour passer des arguments à la fonction, Et start démarre le fil de discussion. target作为可调用对象,使用args将参数传递给函数,并start启动线程。

def testThread(num):
    print num

if __name__ == '__main__':
    for i in range(5):
        t = threading.Thread(target=testThread, arg=(i,))

如果你以前从未见过if __name__ == '__main__':,这基本上是一种确保嵌套在其中的代码仅在脚本直接运行(而不是导入)时运行的方法。

同一操作系统进程的线程将计算工作负载分布到多个内核中,如C++和Java等编程语言所示。通常,python只使用一个进程,从该进程生成一个主线程来执行运行时。由于一种称为全局解释器锁(global interpreter lock)的锁定机制,它保持在单个核上,而不管计算机有多少核,也不管产生了多少新线程,这种机制是为了防止所谓的竞争条件。

Quest-ce que le multithread Python et comment lutiliser

提到竞争,我想到了想到 NASCAR 和一级方程式赛车。让我们用这个类比,想象所有一级方程式赛车手都试图同时在一辆赛车上比赛。听起来很荒谬,对吧?,这只有在每个司机都可以使用自己的车的情况下才有可能,或者最好还是一次跑一圈,每次把车交给下一个司机。


>>> a = 8

在这里,a 通过让内存中的某个任意位置暂时保持值 8 来消耗很少的内存 (RAM)。


import time
import threading
from threading import Thread

a = 8

def threaded_add(x, y):
    # simulation of a more complex task by asking
    # python to sleep, since adding happens so quick!
    for i in range(2):
        global a
        print("computing task in a different thread!")
        #this is not okay! but python will force sync, more on that later!
        a = 10

# the current thread will be a subset fork!
if __name__ != "__main__":
    current_thread = threading.current_thread()

# here we tell python from the main 
# thread of execution make others
if __name__ == "__main__":

    thread = Thread(target = threaded_add, args = (1, 2))
    print("main thread finished...exiting")
>>> computing task in a different thread!
>>> 10
>>> computing task in a different thread!
>>> 10
>>> 10
>>> main thread finished...exiting


一场你没有看的赛车比赛,但从你的两个朋友那里听到了两个相互矛盾的结果!thread_one告诉你一件事,thread two

a = 8
# spawns two different threads 1 and 2
# thread_one updates the value of a to 10

if (a == 10):
  # a check

#thread_two updates the value of a to 15
a = 15
b = a * 2

# if thread_one finished first the result will be 20
# if thread_two finished first the result will be 30
# who is right?

Cela est très similaire à ce qui se passe dans le fil de discussion. Les threads sont « bifurqués » à partir du thread « principal », et chaque thread suivant est une copie du thread précédent. Ces threads existent tous dans le même « contexte » de processus (événement ou course), donc toutes les ressources (telles que la mémoire) allouées au processus sont partagées. Par exemple, dans une session d'interpréteur Python typique :

import sys
import gc

hello = "world" #reference to 'world' is 2
print (sys.getrefcount(hello))

bye = "world" 
other_bye = bye 

Ici, a fait cela en maintenant temporairement la valeur 8 à un emplacement arbitraire de la mémoire. très peu de mémoire (RAM). 🎜

Jusqu'ici tout va bien, commençons quelques discussions et observons leur comportement lors de l'ajout de deux nombres xy code> : 🎜<pre class="brush:php;toolbar:false">&gt;&gt;&gt; 4 &gt;&gt;&gt; 6 &gt;&gt;&gt; [['sys', 'gc', 'hello', 'world', 'print', 'sys', 'getrefcount', 'hello', 'bye', 'world', 'other_bye', 'bye', 'print', 'sys', 'getrefcount', 'bye', 'print', 'gc', 'get_referrers', 'other_bye'], (0, None, 'world'), {'__name__': '__main__', '__doc__': None, '__package__': None, '__loader__': &lt;_frozen_importlib_external.sourcefileloader&gt;, '__spec__': None, '__annotations__': {}, '__builtins__': &lt;module&gt;, '__file__': '', '__cached__': None, 'sys': &lt;module&gt;, 'gc': &lt;module&gt;, 'hello': 'world', 'bye': 'world', 'other_bye': 'world'}]&lt;/module&gt;&lt;/module&gt;&lt;/module&gt;&lt;/_frozen_importlib_external.sourcefileloader&gt;</pre>rrreeDeux threads sont actuellement en cours d'exécution. Appelons-les <code>thread_one et thread_two. Si thread_one veut modifier a avec la valeur 10, et que thread_two essaie simultanément de mettre à jour la même variable, nous avons un problème ! Une condition connue sous le nom de course aux données se produira et les valeurs résultantes de a seront incohérentes. 🎜

Une course que vous n'avez pas regardée, mais que vous avez entendu deux résultats contradictoires de la part de deux de vos amis ! thread_one vous dit quelque chose, thread deux le réfute ! Voici un extrait de pseudocode pour illustrer : 🎜

import time, os
from threading import Thread, current_thread
from multiprocessing import current_process

COUNT = 200000000
SLEEP = 10

def io_bound(sec):
   pid = os.getpid()
   threadName = current_thread().name
   processName = current_process().name
   print(f"{pid} * {processName} * {threadName} \
           ---> Start sleeping...")
   print(f"{pid} * {processName} * {threadName} \
           ---> Finished sleeping...")

def cpu_bound(n):
   pid = os.getpid()
   threadName = current_thread().name
   processName = current_process().name
   print(f"{pid} * {processName} * {threadName} \
           ---> Start counting...")
   while n>0:
          n -= 1
   print(f"{pid} * {processName} * {threadName} \
       ---> Finished counting...")

 def timeit(function,args,threaded=False):
      start = time.time()
      if threaded:
         t1 = Thread(target = function, args =(args, ))
         t2 = Thread(target = function, args =(args, ))
      end = time.time()
      print('Time taken in seconds for running {} on Argument {} is {}s -{}'.format(function,args,end - start,"Threaded" if threaded else "None Threaded"))

if __name__=="__main__":
      #Running io_bound task

      #Running io_bound task in Thread

      #Running cpu_bound task

      #Running cpu_bound task in Thread
🎜Qu'est-ce qui se passe ? 🎜🎜Python est un langage interprété, ce qui signifie qu'il est livré avec un interprète - un programme qui analyse son code source à partir d'un autre langage ! Certains de ces interpréteurs en python incluent cpython, pypypy, Jpython et IronPython, parmi lesquels cpython est l'implémentation originale de python. 🎜🎜CPython est un interpréteur qui fournit des interfaces de fonctions externes avec C et d'autres langages de programmation. Il compile le code source Python en bytecode intermédiaire, qui est interprété par la machine virtuelle CPython. Jusqu'à présent et à l'avenir, la discussion a porté sur CPython et la compréhension du comportement dans l'environnement. 🎜





CPython 的 GIL 通过一次允许一个线程控制解释器来控制 Python 解释器。它为单线程程序提供了性能提升,因为只需要管理一个锁,但代价是它阻止了多线程 CPython 程序在某些情况下充分利用多处理器系统。



>>> 17244 * MainProcess * MainThread            ---> Start sleeping...
>>> 17244 * MainProcess * MainThread            ---> Finished sleeping...
>>> 17244 * MainProcess * MainThread            ---> Start sleeping...
>>> 17244 * MainProcess * MainThread            ---> Finished sleeping...
>>> Time taken in seconds for running <function> on Argument 10 is 20.036664724349976s -None Threaded
>>> 10180 * MainProcess * Thread-1            ---> Start sleeping...
>>> 10180 * MainProcess * Thread-2            ---> Start sleeping...
>>> 10180 * MainProcess * Thread-1            ---> Finished sleeping...
>>> 10180 * MainProcess * Thread-2            ---> Finished sleeping...
>>> Time taken in seconds for running <function> on Argument 10 is 10.01464056968689s -Threaded
>>> 14172 * MainProcess * MainThread            ---> Start counting...
>>> 14172 * MainProcess * MainThread        ---> Finished counting...
>>> 14172 * MainProcess * MainThread            ---> Start counting...
>>> 14172 * MainProcess * MainThread        ---> Finished counting...
>>> Time taken in seconds for running <function> on Argument 200000000 is 44.90199875831604s -None Threaded
>>> 15616 * MainProcess * Thread-1            ---> Start counting...
>>> 15616 * MainProcess * Thread-2            ---> Start counting...
>>> 15616 * MainProcess * Thread-1        ---> Finished counting...
>>> 15616 * MainProcess * Thread-2        ---> Finished counting...
>>> Time taken in seconds for running <function> on Argument 200000000 is 106.09711360931396s -Threaded</function></function></function></function>





import os
import time
from multiprocessing import Process, current_process

SLEEP = 10
COUNT = 200000000

def count_down(cnt):
   pid = os.getpid()
   processName = current_process().name
   print(f"{pid} * {processName} \
           ---> Start counting...")
   while cnt > 0:
       cnt -= 1

def io_bound(sec):
   pid = os.getpid()
   threadName = current_thread().name
   processName = current_process().name
   print(f"{pid} * {processName} * {threadName} \
           ---> Start sleeping...")
   print(f"{pid} * {processName} * {threadName} \
           ---> Finished sleeping...")

if __name__ == '__main__':
# creating processes
    start = time.time()

    p1 = Process(target=count_down, args=(COUNT, ))
    p2 = Process(target=count_down, args=(COUNT, ))

    #p1 = Process(target=, args=(SLEEP, ))
    #p2 = Process(target=count_down, args=(SLEEP, ))

  # starting process_thread

  # wait until finished

    stop = time.time()
    elapsed = stop - start

    print ("The time taken in seconds is :", elapsed)
>>> 1660 * Process-2            ---> Start counting...
>>> 10184 * Process-1            ---> Start counting...
>>> The time taken in seconds is : 12.815475225448608




import time
import asyncio

COUNT = 200000000

# asynchronous function defination
async def func_name(cnt):
       while cnt > 0:
           cnt -= 1

#asynchronous main function defination
async def main ():
  # Creating 2 tasks.....You could create as many tasks (n tasks)
  task1 = loop.create_task(func_name(COUNT))
  task2 = loop.create_task(func_name(COUNT))

  # await each task to execute before handing control back to the program
  await asyncio.wait([task1, task2])

if __name__ =='__main__':
  # get the event loop
  start_time = time.time()
  loop = asyncio.get_event_loop()
  # run all tasks in the event loop until completion
  print("--- %s seconds ---" % (time.time() - start_time))
>>> --- 41.74118399620056 seconds ---




  1. 数据在进程之间混洗会产生 I/O 开销

  2. 整个内存被复制到每个子进程中,这对于更重要的程序来说可能是很多开销

