>백엔드 개발 >파이썬 튜토리얼 >Python 분산 프로세스란 무엇입니까? (예시분석)

Python 분산 프로세스란 무엇입니까? (예시분석)

乌拉乌拉~
乌拉乌拉~원래의
2018-08-23 17:42:292538검색

이 글에서는 파이썬 분산 프로세스가 무엇인지 살펴보겠습니다. Python 분산 프로세스와 Python 프로그래밍에서 분산 프로세스가 수행할 수 있는 역할에 대해 알아보세요.

스레드와 프로세스 중에서는 프로세스가 더 안정적이고 프로세스를 여러 머신에 배포할 수 있는 반면 스레드는 최대 동일한 머신의 여러 CPU에만 배포할 수 있으므로 프로세스를 선호해야 합니다.

Python의 다중 처리 모듈은 여러 프로세스를 지원할 뿐만 아니라 관리자 하위 모듈도 여러 프로세스를 여러 컴퓨터에 배포하는 것을 지원합니다. 서비스 프로세스는 네트워크 통신에 의존하여 작업을 여러 다른 프로세스에 배포하는 스케줄러 역할을 할 수 있습니다. 관리자 모듈은 잘 캡슐화되어 있으므로 네트워크 통신의 세부 사항을 몰라도 분산 다중 프로세스 프로그램을 쉽게 작성할 수 있습니다.

예: 동일한 시스템에서 실행되는 대기열을 통해 통신하는 다중 프로세스 프로그램이 이미 있는 경우 작업을 처리하는 프로세스의 작업량이 많아 작업을 보내는 프로세스와 머신의 두 머신에 작업을 처리하는 프로세스입니다. 분산 프로세스를 사용하여 구현하는 방법은 무엇입니까?

원래 대기열을 계속 사용할 수 있지만 관리자 모듈을 통해 네트워크를 통해 대기열을 노출하면 다른 컴퓨터의 프로세스가 대기열에 액세스할 수 있습니다.

먼저 서비스 프로세스를 살펴보겠습니다. 서비스 프로세스는 대기열을 시작하고 네트워크에 대기열을 등록한 다음 대기열에 작업을 쓰는 일을 담당합니다.

# task_master.py

import random, time, queue
from multiprocessing.managers import BaseManager
# 发送任务的队列:
task_queue = queue.Queue()
# 接收结果的队列:
result_queue = queue.Queue()
# 从BaseManager继承的QueueManager:
class QueueManager(BaseManager):
    pass
# 把两个Queue都注册到网络上, callable参数关联了Queue对象:
QueueManager.register('get_task_queue', callable=lambda: task_queue)
QueueManager.register('get_result_queue', callable=lambda: result_queue)
# 绑定端口5000, 设置验证码'abc':
manager = QueueManager(address=('', 5000), authkey=b'abc')
# 启动Queue:
manager.start()
# 获得通过网络访问的Queue对象:
task = manager.get_task_queue()
result = manager.get_result_queue()
# 放几个任务进去:
for i in range(10):
    n = random.randint(0, 10000)
    print('Put task %d...' % n)
    task.put(n)
# 从result队列读取结果:
print('Try get results...')
for i in range(10):
    r = result.get(timeout=10)
    print('Result: %s' % r)
# 关闭:
manager.shutdown()

다중 프로세스 프로그램을 작성할 때 주의하세요. 머신에서는 생성된 대기열을 직접 사용할 수 있습니다. 그러나 분산 다중 프로세스 환경에서는 대기열에 작업을 추가하는 것이 원래 task_queue에서 직접 작동할 수 없습니다. 이는 QueueManager의 캡슐화를 우회하고 Manager.get_task_queue()를 통해 대기열을 얻어야 합니다. . 인터페이스가 추가되었습니다.

그런 다음 다른 머신에서 작업 프로세스를 시작합니다(이 머신에서도 시작할 수 있음):

# task_master.py
import random, time, queue
from multiprocessing.managers import BaseManager
# 发送任务的队列:
task_queue = queue.Queue()
# 接收结果的队列:
result_queue = queue.Queue()
# 从BaseManager继承的QueueManager:
class QueueManager(BaseManager):
    pass
# 把两个Queue都注册到网络上, callable参数关联了Queue对象:
QueueManager.register('get_task_queue', callable=lambda: task_queue)
QueueManager.register('get_result_queue', callable=lambda: result_queue)
# 绑定端口5000, 设置验证码'abc':
manager = QueueManager(address=('', 5000), authkey=b'abc')
# 启动Queue:
manager.start()
# 获得通过网络访问的Queue对象:
task = manager.get_task_queue()
result = manager.get_result_queue()
# 放几个任务进去:
for i in range(10):
    n = random.randint(0, 10000)
    print('Put task %d...' % n)
    task.put(n)
# 从result队列读取结果:
print('Try get results...')
for i in range(10):
    r = result.get(timeout=10)
    print('Result: %s' % r)
# 关闭:
manager.shutdown()

작업 프로세스는 네트워크를 통해 서비스 프로세스에 연결되어야 하므로 서비스 프로세스의 IP를 지정해야 합니다.

이제 분산 프로세스의 작업 효과를 시험해 볼 수 있습니다. 먼저 task_master.py 서비스 프로세스를 시작합니다.

$ python3 task_master.py 
Put task 3411...
Put task 1605...
Put task 1398...
Put task 4729...
Put task 5300...
Put task 7471...
Put task 68...
Put task 4219...
Put task 339...
Put task 7866...
Try get results...

task_master.py 프로세스가 작업을 보낸 후 결과 대기열의 결과를 기다리기 시작합니다. 이제 task_worker.py 프로세스를 시작합니다.

$ python3 task_worker.pyConnect to server 127.0.0.1...
run task 3411 * 3411...
run task 1605 * 1605...
run task 1398 * 1398...
run task 4729 * 4729...
run task 5300 * 5300...
run task 7471 * 7471...
run task 68 * 68...
run task 4219 * 4219...
run task 339 * 339...
run task 7866 * 7866...
worker exit.

task_worker.py 프로세스가 종료되고 결과는 task_master.py 프로세스에서 계속 인쇄됩니다.

Result: 3411 * 3411 = 11634921
Result: 1605 * 1605 = 2576025
Result: 1398 * 1398 = 1954404
Result: 4729 * 4729 = 22363441
Result: 5300 * 5300 = 28090000
Result: 7471 * 7471 = 55815841
Result: 68 * 68 = 4624
Result: 4219 * 4219 = 17799961
Result: 339 * 339 = 114921
Result: 7866 * 7866 = 61873956

이 간단한 마스터/작업자 모델의 용도는 무엇입니까? 실제로 이것은 간단하지만 실제적인 분산 컴퓨팅입니다. 코드를 약간 수정하고 여러 작업자를 시작하면 작업을 여러 대 또는 심지어 수십 대의 컴퓨터에 분산시킬 수 있습니다. 이메일, 메일 대기열의 비동기 전송을 실현합니다.

네트워크를 통해 Queue에 접근할 수 있는 이유는 QueueManager를 통해서입니다. QueueManager는 둘 이상의 대기열을 관리하므로 각 대기열의 네트워크 호출 인터페이스에 get_task_queue와 같은 이름을 지정해야 합니다.

인증키의 용도는 무엇인가요? 이는 두 시스템이 정상적으로 통신하고 다른 시스템에 의해 악의적으로 간섭되지 않도록 하기 위한 것입니다. task_worker.py의 인증 키가 task_master.py의 인증 키와 일치하지 않으면 연결이 확실히 실패합니다.

Python의 분산 프로세스 인터페이스는 간단하고 잘 캡슐화되어 있어 무거운 작업을 여러 컴퓨터에 분산해야 하는 환경에 적합합니다.

큐의 역할은 작업을 전달하고 결과를 받는 것입니다. 각 작업을 설명하는 데이터의 양은 가능한 한 작아야 합니다. 예를 들어, 로그 파일을 처리하기 위한 작업을 보낼 때 수백 메가바이트 크기의 로그 파일 자체를 보내는 대신 로그 파일이 저장된 전체 경로를 보내면 작업자 프로세스가 해당 파일을 읽습니다. 공유 디스크.

위 내용은 이 글에 설명된 모든 내용입니다. 이 글은 주로 파이썬 배포 프로세스 관련 지식을 소개하는 내용입니다. 위 내용을 이해하는 데 참고하시기 바랍니다. 이 글에서 제가 설명한 내용이 여러분에게 도움이 되고 파이썬을 더 쉽게 배울 수 있기를 바랍니다.

더 많은 관련 지식을 알고 싶으시면 PHP 중국어 홈페이지의 Python tutorial 칼럼을 방문해 주세요.

위 내용은 Python 분산 프로세스란 무엇입니까? (예시분석)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.