Python では、アプリケーションのパフォーマンスを最適化するとき、特に同時実行または並列実行が関係する場合、スレッド と マルチプロセッシング の概念がよく議論されます。用語は重複していますが、これら 2 つのアプローチは根本的に異なります。
このブログは、スレッド と マルチプロセッシング に関する混乱を明確にし、それぞれをいつ使用するかを説明し、各概念に関連する例を提供します。
例とユースケースに入る前に、主な違いを概説しましょう:
スレッド: 単一プロセス内で複数のスレッド (プロセスの小さな単位) を実行することを指します。スレッドは同じメモリ空間を共有するため、スレッドは軽量になります。ただし、Python の グローバル インタプリタ ロック (GIL) は、CPU バウンドのタスクのスレッドの真の並列処理を制限します。
マルチプロセッシング: それぞれが独自のメモリ空間を持つ複数のプロセスの実行が含まれます。プロセスはスレッドより重いですが、メモリを共有しないため、真の並列処理を実現できます。このアプローチは、コアを完全に使用する必要がある CPU バウンドのタスクに最適です。
スレッディング は、同じプロセス内で複数のタスクを同時に実行する方法です。これらのタスクは、同じメモリ空間を共有する独立した軽量の実行単位であるスレッドによって処理されます。スレッド化は、メイン プログラムが外部リソースの待機に多くの時間を費やすファイル読み取り、ネットワーク リクエスト、データベース クエリなど、I/O バウンドの操作に有益です。
import threading import time def print_numbers(): for i in range(5): print(i) time.sleep(1) def print_letters(): for letter in ['a', 'b', 'c', 'd', 'e']: print(letter) time.sleep(1) # Create two threads t1 = threading.Thread(target=print_numbers) t2 = threading.Thread(target=print_letters) # Start both threads t1.start() t2.start() # Wait for both threads to complete t1.join() t2.join() print("Both threads finished execution.")
上記の例では、2 つのスレッドが同時に実行されます。1 つは数値を出力し、もう 1 つは文字を出力します。 sleep() 呼び出しは I/O 操作をシミュレートし、プログラムは待機中にスレッドを切り替えることができます。
Python の GIL は、複数のネイティブ スレッドが Python バイトコードを同時に実行することを防ぐメカニズムです。これにより、プロセス内で複数のスレッドがアクティブになっている場合でも、一度に 1 つのスレッドだけが実行されるようになります。
この制限により、スレッドは GIL のせいで複数のコアを完全に利用できないため、実際の並列処理を必要とする CPU バウンドのタスクにはスレッドが適さないようになります。
マルチプロセッシング を使用すると、複数のプロセスを同時に実行できます。各プロセスは独自のメモリ空間を持ちます。プロセスはメモリを共有しないため、GIL の制限がなく、複数の CPU コアでの真の並列実行が可能になります。マルチプロセッシングは、CPU 使用率を最大化する必要がある CPU バウンドのタスクに最適です。
import multiprocessing import time def print_numbers(): for i in range(5): print(i) time.sleep(1) def print_letters(): for letter in ['a', 'b', 'c', 'd', 'e']: print(letter) time.sleep(1) if __name__ == "__main__": # Create two processes p1 = multiprocessing.Process(target=print_numbers) p2 = multiprocessing.Process(target=print_letters) # Start both processes p1.start() p2.start() # Wait for both processes to complete p1.join() p2.join() print("Both processes finished execution.")
この例では、2 つの別個のプロセスが同時に実行されます。スレッドとは異なり、各プロセスは独自のメモリ空間を持ち、GIL からの干渉を受けることなく独立して実行されます。
スレッド処理とマルチプロセッシングの主な違いの 1 つは、プロセスがメモリを共有しないことです。これにより、プロセス間に干渉がないことが保証されますが、プロセス間でデータを共有するには、マルチプロセッシング モジュールによって提供される Queue、Pipe、Manager オブジェクトなどの特別なメカニズムが必要になることも意味します。
両方のアプローチがどのように機能するかを理解したところで、タスクのタイプに基づいてスレッド処理とマルチプロセッシングをいつ選択するべきかを詳しく見てみましょう。
Use Case | Type | Why? |
---|---|---|
Network requests, I/O-bound tasks (file read/write, DB calls) | Threading | Multiple threads can handle I/O waits concurrently. |
CPU-bound tasks (data processing, calculations) | Multiprocessing | True parallelism is possible by utilizing multiple cores. |
Task requires shared memory or lightweight concurrency | Threading | Threads share memory and are cheaper in terms of resources. |
Independent tasks needing complete isolation (e.g., separate processes) | Multiprocessing | Processes have isolated memory, making them safer for independent tasks. |
Threading excels in scenarios where the program waits on external resources (disk I/O, network). Since threads can work concurrently during these wait times, threading can help boost performance.
However, due to the GIL, CPU-bound tasks do not benefit much from threading because only one thread can execute at a time.
Multiprocessing allows true parallelism by running multiple processes across different CPU cores. Each process runs in its own memory space, bypassing the GIL and making it ideal for CPU-bound tasks.
However, creating processes is more resource-intensive than creating threads, and inter-process communication can slow things down if there's a lot of data sharing between processes.
Let's compare threading and multiprocessing for a CPU-bound task like calculating the sum of squares for a large list.
import threading def calculate_squares(numbers): result = sum([n * n for n in numbers]) print(result) numbers = range(1, 10000000) t1 = threading.Thread(target=calculate_squares, args=(numbers,)) t2 = threading.Thread(target=calculate_squares, args=(numbers,)) t1.start() t2.start() t1.join() t2.join()
Due to the GIL, this example will not see significant performance improvements over a single-threaded version because the threads can't run simultaneously for CPU-bound operations.
import multiprocessing def calculate_squares(numbers): result = sum([n * n for n in numbers]) print(result) if __name__ == "__main__": numbers = range(1, 10000000) p1 = multiprocessing.Process(target=calculate_squares, args=(numbers,)) p2 = multiprocessing.Process(target=calculate_squares, args=(numbers,)) p1.start() p2.start() p1.join() p2.join()
In the multiprocessing example, you'll notice a performance boost since both processes run in parallel across different CPU cores, fully utilizing the machine's computational resources.
Understanding the difference between threading and multiprocessing is crucial for writing efficient Python programs. Here’s a quick recap:
Knowing when to use which approach can lead to significant performance improvements and efficient use of resources.
以上がPython のスレッドとマルチプロセッシングを理解する: 包括的なガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。