Im Kern ist Python eine lineare Sprache, aber das Threading-Modul ist praktisch, wenn Sie mehr Rechenleistung benötigen. Obwohl Threads in Python nicht für paralleles CPU-Computing verwendet werden können, eignen sie sich gut für I/O-Vorgänge wie Web Scraping, da der Prozessor im Leerlauf ist und auf Daten wartet.
Threads verändern das Spiel, da viele Netzwerk-/Daten-I/O-bezogene Skripte die meiste Zeit damit verbringen, auf Daten von Remote-Quellen zu warten. Da Downloads möglicherweise nicht verknüpft sind (d. h. separate Websites crawlen), kann der Prozessor parallel von verschiedenen Datenquellen herunterladen und die Ergebnisse am Ende zusammenführen. Bei CPU-intensiven Prozessen bietet die Verwendung des Thread-Moduls kaum Vorteile.
Glücklicherweise sind Threads in der Standardbibliothek enthalten:
import threading from queue import Queue import time
Sie können target
als aufrufbares Objekt und args
verwenden, um Argumente an die Funktion zu übergeben start
startet den Thread. target
def testThread(num): print num if __name__ == '__main__': for i in range(5): t = threading.Thread(target=testThread, arg=(i,)) t.start()
如果你以前从未见过if __name__ == '__main__':
同一操作系统进程的线程将计算工作负载分布到多个内核中,如C++和Java等编程语言所示。通常,python只使用一个进程,从该进程生成一个主线程来执行运行时。由于一种称为全局解释器锁(global interpreter lock)的锁定机制,它保持在单个核上,而不管计算机有多少核,也不管产生了多少新线程,这种机制是为了防止所谓的竞争条件。
提到竞争,我想到了想到 NASCAR 和一级方程式赛车。让我们用这个类比,想象所有一级方程式赛车手都试图同时在一辆赛车上比赛。听起来很荒谬,对吧?,这只有在每个司机都可以使用自己的车的情况下才有可能,或者最好还是一次跑一圈,每次把车交给下一个司机。
>>> a = 8
通过让内存中的某个任意位置暂时保持值 8 来消耗很少的内存 (RAM)。
import time import threading from threading import Thread a = 8 def threaded_add(x, y): # simulation of a more complex task by asking # python to sleep, since adding happens so quick! for i in range(2): global a print("computing task in a different thread!") time.sleep(1) #this is not okay! but python will force sync, more on that later! a = 10 print(a) # the current thread will be a subset fork! if __name__ != "__main__": current_thread = threading.current_thread() # here we tell python from the main # thread of execution make others if __name__ == "__main__": thread = Thread(target = threaded_add, args = (1, 2)) thread.start() thread.join() print(a) print("main thread finished...exiting")
>>> computing task in a different thread! >>> 10 >>> computing task in a different thread! >>> 10 >>> 10 >>> main thread finished...exiting
告诉你一件事,thread two
a = 8 # spawns two different threads 1 and 2 # thread_one updates the value of a to 10 if (a == 10): # a check #thread_two updates the value of a to 15 a = 15 b = a * 2 # if thread_one finished first the result will be 20 # if thread_two finished first the result will be 30 # who is right?
Wenn Sie es noch nie zuvor gesehen haben if __name__ == '__main__':
, ist dies im Grunde ein Code, der sicherstellt, dass er in der Methode verschachtelt ist Das wird nur ausgeführt, wenn das Skript direkt ausgeführt (und nicht importiert) wird.
Threads desselben Betriebssystemprozesses verteilen Rechenlasten auf mehrere Kerne, z.B. Programmiersprachen wie C++ und Java werden angezeigt. Normalerweise verwendet Python nur einen Prozess, aus dem ein Hauptthread erzeugt wird, um die Laufzeit auszuführen. Aufgrund eines Sperrmechanismus namens Global Interpreter Lock bleibt es auf einem einzelnen Kern, unabhängig davon, wie viele Kerne der Computer hat oder wie viele neue Threads erzeugt werden. Dies soll sogenannte Race Conditions verhindern.
Wenn ich an Wettbewerb denke, denke ich an NASCAR und die Formel 1. Nehmen wir diese Analogie und stellen wir uns vor, dass alle Formel-1-Fahrer gleichzeitig versuchen, in einem Auto Rennen zu fahren. Klingt lächerlich, oder? , was nur möglich ist, wenn jeder Fahrer Zugriff auf sein eigenes Auto hat oder, noch besser, eine Runde nach der anderen fährt und das Auto jedes Mal an den nächsten Fahrer übergibt.Das ist dem, was im Thread passiert, sehr ähnlich. Threads werden vom „Haupt“-Thread „verzweigt“ und jeder nachfolgende Thread ist eine Kopie des vorherigen Threads. Diese Threads existieren alle im selben Prozess-„Kontext“ (Ereignis oder Rennen), sodass alle dem Prozess zugewiesenen Ressourcen (z. B. Speicher) gemeinsam genutzt werden. Zum Beispiel in einer typischen Python-Interpreter-Sitzung:
import sys import gc hello = "world" #reference to 'world' is 2 print (sys.getrefcount(hello)) bye = "world" other_bye = bye print(sys.getrefcount(bye)) print(gc.get_referrers(other_bye))
Hier führt a
dies aus, indem es den Wert 8 vorübergehend an einer beliebigen Stelle im Speicher hält sehr wenig Speicher (RAM). 🎜
So weit so gut, starten wir einige Threads und beobachten ihr Verhalten beim Addieren von zwei Zahlen x
y code>: 🎜<pre class="brush:php;toolbar:false">>>> 4
>>> 6
>>> [['sys', 'gc', 'hello', 'world', 'print', 'sys', 'getrefcount', 'hello', 'bye', 'world', 'other_bye', 'bye', 'print', 'sys', 'getrefcount', 'bye', 'print', 'gc', 'get_referrers', 'other_bye'], (0, None, 'world'), {'__name__': '__main__', '__doc__': None, '__package__': None, '__loader__': <_frozen_importlib_external.sourcefileloader>, '__spec__': None, '__annotations__': {}, '__builtins__': <module>, '__file__': 'test.py', '__cached__': None, 'sys': <module>, 'gc': <module>, 'hello': 'world', 'bye': 'world', 'other_bye': 'world'}]</module></module></module></_frozen_importlib_external.sourcefileloader></pre>rrreeZwei Threads laufen derzeit. Nennen wir sie <code>thread_one
und thread_two
. Wenn thread_one
mit dem Wert 10 ändern möchte und thread_two
gleichzeitig versucht, dieselbe Variable zu aktualisieren, haben wir ein Problem! Es tritt ein sogenannter Datenwettlauf auf, und die resultierenden Werte von a
sind inkonsistent. 🎜
Eine Rennveranstaltung, die Sie nicht gesehen, aber von zwei Ihrer Freunde zwei widersprüchliche Ergebnisse gehört haben! thread_one
sagt etwas, thread_one
widerlegt es! Hier ist ein Pseudocode-Ausschnitt zur Veranschaulichung: 🎜
import time, os from threading import Thread, current_thread from multiprocessing import current_process COUNT = 200000000 SLEEP = 10 def io_bound(sec): pid = os.getpid() threadName = current_thread().name processName = current_process().name print(f"{pid} * {processName} * {threadName} \ ---> Start sleeping...") time.sleep(sec) print(f"{pid} * {processName} * {threadName} \ ---> Finished sleeping...") def cpu_bound(n): pid = os.getpid() threadName = current_thread().name processName = current_process().name print(f"{pid} * {processName} * {threadName} \ ---> Start counting...") while n>0: n -= 1 print(f"{pid} * {processName} * {threadName} \ ---> Finished counting...") def timeit(function,args,threaded=False): start = time.time() if threaded: t1 = Thread(target = function, args =(args, )) t2 = Thread(target = function, args =(args, )) t1.start() t2.start() t1.join() t2.join() else: function(args) end = time.time() print('Time taken in seconds for running {} on Argument {} is {}s -{}'.format(function,args,end - start,"Threaded" if threaded else "None Threaded")) if __name__=="__main__": #Running io_bound task print("IO BOUND TASK NON THREADED") timeit(io_bound,SLEEP) print("IO BOUND TASK THREADED") #Running io_bound task in Thread timeit(io_bound,SLEEP,threaded=True) print("CPU BOUND TASK NON THREADED") #Running cpu_bound task timeit(cpu_bound,COUNT) print("CPU BOUND TASK THREADED") #Running cpu_bound task in Thread timeit(cpu_bound,COUNT,threaded=True)🎜Was zum Teufel ist los? 🎜🎜Python ist eine interpretierte Sprache, das heißt, sie verfügt über einen Interpreter – ein Programm, das seinen Quellcode aus einer anderen Sprache analysiert! Einige dieser Interpreter in Python umfassen cpython, pypypy, Jpython und IronPython, wobei cpython die ursprüngliche Implementierung von Python ist. 🎜🎜CPython ist ein Interpreter, der externe Funktionsschnittstellen mit C und anderen Programmiersprachen bereitstellt. Er kompiliert Python-Quellcode in Zwischenbytecode, der von der virtuellen CPython-Maschine interpretiert wird. Bisher und in Zukunft drehte sich die Diskussion um CPython und das Verständnis des Verhaltens in der Umgebung. 🎜
import sys import gc hello = "world" #reference to 'world' is 2 print (sys.getrefcount(hello)) bye = "world" other_bye = bye print(sys.getrefcount(bye)) print(gc.get_referrers(other_bye))
>>> 4 >>> 6 >>> [['sys', 'gc', 'hello', 'world', 'print', 'sys', 'getrefcount', 'hello', 'bye', 'world', 'other_bye', 'bye', 'print', 'sys', 'getrefcount', 'bye', 'print', 'gc', 'get_referrers', 'other_bye'], (0, None, 'world'), {'__name__': '__main__', '__doc__': None, '__package__': None, '__loader__': <_frozen_importlib_external.sourcefileloader>, '__spec__': None, '__annotations__': {}, '__builtins__': <module>, '__file__': 'test.py', '__cached__': None, 'sys': <module>, 'gc': <module>, 'hello': 'world', 'bye': 'world', 'other_bye': 'world'}]</module></module></module></_frozen_importlib_external.sourcefileloader>
CPython 的 GIL 通过一次允许一个线程控制解释器来控制 Python 解释器。它为单线程程序提供了性能提升,因为只需要管理一个锁,但代价是它阻止了多线程 CPython 程序在某些情况下充分利用多处理器系统。
import time, os from threading import Thread, current_thread from multiprocessing import current_process COUNT = 200000000 SLEEP = 10 def io_bound(sec): pid = os.getpid() threadName = current_thread().name processName = current_process().name print(f"{pid} * {processName} * {threadName} \ ---> Start sleeping...") time.sleep(sec) print(f"{pid} * {processName} * {threadName} \ ---> Finished sleeping...") def cpu_bound(n): pid = os.getpid() threadName = current_thread().name processName = current_process().name print(f"{pid} * {processName} * {threadName} \ ---> Start counting...") while n>0: n -= 1 print(f"{pid} * {processName} * {threadName} \ ---> Finished counting...") def timeit(function,args,threaded=False): start = time.time() if threaded: t1 = Thread(target = function, args =(args, )) t2 = Thread(target = function, args =(args, )) t1.start() t2.start() t1.join() t2.join() else: function(args) end = time.time() print('Time taken in seconds for running {} on Argument {} is {}s -{}'.format(function,args,end - start,"Threaded" if threaded else "None Threaded")) if __name__=="__main__": #Running io_bound task print("IO BOUND TASK NON THREADED") timeit(io_bound,SLEEP) print("IO BOUND TASK THREADED") #Running io_bound task in Thread timeit(io_bound,SLEEP,threaded=True) print("CPU BOUND TASK NON THREADED") #Running cpu_bound task timeit(cpu_bound,COUNT) print("CPU BOUND TASK THREADED") #Running cpu_bound task in Thread timeit(cpu_bound,COUNT,threaded=True)
>>> IO BOUND TASK NON THREADED >>> 17244 * MainProcess * MainThread ---> Start sleeping... >>> 17244 * MainProcess * MainThread ---> Finished sleeping... >>> 17244 * MainProcess * MainThread ---> Start sleeping... >>> 17244 * MainProcess * MainThread ---> Finished sleeping... >>> Time taken in seconds for running <function> on Argument 10 is 20.036664724349976s -None Threaded >>> IO BOUND TASK THREADED >>> 10180 * MainProcess * Thread-1 ---> Start sleeping... >>> 10180 * MainProcess * Thread-2 ---> Start sleeping... >>> 10180 * MainProcess * Thread-1 ---> Finished sleeping... >>> 10180 * MainProcess * Thread-2 ---> Finished sleeping... >>> Time taken in seconds for running <function> on Argument 10 is 10.01464056968689s -Threaded >>> CPU BOUND TASK NON THREADED >>> 14172 * MainProcess * MainThread ---> Start counting... >>> 14172 * MainProcess * MainThread ---> Finished counting... >>> 14172 * MainProcess * MainThread ---> Start counting... >>> 14172 * MainProcess * MainThread ---> Finished counting... >>> Time taken in seconds for running <function> on Argument 200000000 is 44.90199875831604s -None Threaded >>> CPU BOUND TASK THEADED >>> 15616 * MainProcess * Thread-1 ---> Start counting... >>> 15616 * MainProcess * Thread-2 ---> Start counting... >>> 15616 * MainProcess * Thread-1 ---> Finished counting... >>> 15616 * MainProcess * Thread-2 ---> Finished counting... >>> Time taken in seconds for running <function> on Argument 200000000 is 106.09711360931396s -Threaded</function></function></function></function>
import os import time from multiprocessing import Process, current_process SLEEP = 10 COUNT = 200000000 def count_down(cnt): pid = os.getpid() processName = current_process().name print(f"{pid} * {processName} \ ---> Start counting...") while cnt > 0: cnt -= 1 def io_bound(sec): pid = os.getpid() threadName = current_thread().name processName = current_process().name print(f"{pid} * {processName} * {threadName} \ ---> Start sleeping...") time.sleep(sec) print(f"{pid} * {processName} * {threadName} \ ---> Finished sleeping...") if __name__ == '__main__': # creating processes start = time.time() #CPU BOUND p1 = Process(target=count_down, args=(COUNT, )) p2 = Process(target=count_down, args=(COUNT, )) #IO BOUND #p1 = Process(target=, args=(SLEEP, )) #p2 = Process(target=count_down, args=(SLEEP, )) # starting process_thread p1.start() p2.start() # wait until finished p1.join() p2.join() stop = time.time() elapsed = stop - start print ("The time taken in seconds is :", elapsed)
>>> 1660 * Process-2 ---> Start counting... >>> 10184 * Process-1 ---> Start counting... >>> The time taken in seconds is : 12.815475225448608
import time import asyncio COUNT = 200000000 # asynchronous function defination async def func_name(cnt): while cnt > 0: cnt -= 1 #asynchronous main function defination async def main (): # Creating 2 tasks.....You could create as many tasks (n tasks) task1 = loop.create_task(func_name(COUNT)) task2 = loop.create_task(func_name(COUNT)) # await each task to execute before handing control back to the program await asyncio.wait([task1, task2]) if __name__ =='__main__': # get the event loop start_time = time.time() loop = asyncio.get_event_loop() # run all tasks in the event loop until completion loop.run_until_complete(main()) loop.close() print("--- %s seconds ---" % (time.time() - start_time))
>>> --- 41.74118399620056 seconds ---
数据在进程之间混洗会产生 I/O 开销
