Python의 멀티프로세싱을 사용하면 동시에 실행되는 여러 프로세스를 생성하여 여러 코어를 활용하고 성능을 향상시킬 수 있습니다. 그러나 프로세스 간에 대량의 데이터를 공유하는 것은 문제가 될 수 있습니다. 여기서는 다중 처리를 사용하여 다양한 객체의 대규모 목록을 처리할 때 공유 메모리의 동작에 대해 논의합니다.
일반적으로 Python은 COW(기록 중 복사) 의미 체계를 사용합니다. 새로운 프로세스를 생성할 때 이는 새 프로세스가 생성되면 상위 프로세스와 동일한 메모리를 공유한다는 의미입니다. 두 프로세스 중 하나를 수정하면 영향을 받는 메모리 영역의 새 복사본이 생성됩니다. 그러나 공유 객체에 액세스하면 참조 카운트가 증가하므로 참조 카운팅으로 인해 메모리가 복사될 가능성에 대한 우려가 높아집니다.
제공된 예에서, 비트 배열과 정수 배열을 포함하는 세 개의 큰 목록이 여러 하위 프로세스 간에 공유되는 경우 참조 계산 메커니즘으로 인해 실제로 전체 개체가 복사될 수 있습니다. 이는 someFunction 함수가 각 목록에 액세스하여 참조 횟수를 늘리기 때문입니다. 목록이 크기 때문에 각 하위 프로세스마다 메모리 사용량이 크게 증가합니다.
이 경우 큰 목록과 같은 공유 데이터의 불필요한 중복을 방지하려면 , 이러한 목록과 해당 구성 개체에 대한 참조 계산을 비활성화하는 메커니즘을 고안해야 합니다. 그러나 Python 문서에서는 참조 카운팅이 Python 메모리 관리 시스템의 기본 부분이므로 수정하지 말 것을 권고합니다.
공유하는 동안 데이터 무결성을 보장할 수 있는 솔루션 하위 프로세스 간의 진정한 공유 메모리를 사용하는 것입니다. Python 버전 3.8에 도입된 True Shared Memory를 사용하면 데이터를 복제하지 않고도 모든 하위 프로세스에서 직접 액세스할 수 있는 공유 메모리 개체를 생성할 수 있습니다.
제공된 코드 샘플은 일반적인 사용 사례인 NumPy 배열과 함께 True Shared Memory를 사용합니다. add_one 함수는 공유 메모리가 지원하는 기존 NumPy 배열(create_shared_block 함수에서 생성됨)을 활용하여 전체 배열을 복사하지 않고 계산을 수행합니다. 최종 배열 인쇄물에는 업데이트된 배열이 표시되어 하위 프로세스의 변경 사항이 공유 메모리에 반영되었는지 확인합니다.
다중 처리를 사용하여 여러 하위 프로세스 간에 대량의 데이터를 공유하는 것은 고유한 참조 계산 메커니즘으로 인해 어려울 수 있습니다. 그러나 True Shared Memory의 출현으로 이러한 한계를 극복하고 병렬화의 이점을 활용하면서 데이터 무결성을 보장할 수 있습니다.
위 내용은 Python에서 다중 처리를 사용하여 여러 하위 프로세스에서 대규모 개체 목록을 공유할 때 데이터 무결성을 어떻게 보장할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!