>  기사  >  Java  >  맵리듀스 원리

맵리듀스 원리

(*-*)浩
(*-*)浩원래의
2019-06-05 14:15:188387검색

MapReduce는 대규모 데이터 세트(1TB 이상)에 대한 병렬 작업을 위한 프로그래밍 모델입니다. 그들의 주요 아이디어인 "Map"과 "Reduce"라는 개념은 함수형 프로그래밍 언어에서 차용한 것뿐만 아니라 벡터 프로그래밍 언어에서 차용한 기능도 있습니다.

맵리듀스 원리

이는 프로그래머가 분산 병렬 프로그래밍 없이 분산 시스템에서 자신의 프로그램을 실행하는 것을 크게 촉진합니다. 현재 소프트웨어 구현에서는 키-값 쌍 집합을 새로운 키-값 쌍 집합으로 매핑하는 Map 함수를 지정하고 매핑된 모든 키-값 쌍이 각각 동일한 집합을 공유하도록 보장하는 동시 Reduce 함수를 지정합니다. 열쇠.

작동 원리(권장 학습: Java 비디오 튜토리얼)

MapReduce 실행 프로세스# 🎜🎜#

위 사진은 논문에 제시된 흐름도입니다. 모든 것은 상단의 사용자 프로그램에서 시작됩니다. 사용자 프로그램은 MapReduce 라이브러리와 연결되어 가장 기본적인 Map 기능과 Reduce 기능을 구현합니다. 그림에서 실행 순서는 숫자로 표시되어 있습니다. 맵리듀스 원리

1. MapReduce 라이브러리는 먼저 사용자 프로그램의 입력 파일을 M개의 부분(M은 사용자 정의)으로 나눕니다. 각 부분은 그림과 같이 보통 16MB~64MB로 나뉩니다. ;그런 다음 포크를 사용하여 사용자 프로세스를 클러스터의 다른 시스템에 복사합니다.

2. 사용자 프로그램의 한 복사본을 마스터라고 하고, 나머지 복사본을 워커라고 합니다. 마스터는 유휴 작업자에게 작업(작업 매핑 또는 작업 축소)을 예약하고 할당하는 역할을 담당합니다. 작업자는 사용자가 지정할 수도 있습니다.

3. Map 작업을 할당한 작업자는 해당 샤드의 입력 데이터를 읽기 시작합니다. Map 작업의 수는 M에 의해 결정되며 Map 작업을 1:1로 분할하는 데 해당합니다. 입력 데이터 출력 키-값 쌍에서 추출되며, 각 키-값 쌍은 매개변수로 맵 함수에 전달되고, 맵 함수에 의해 생성된 중간 키-값 쌍은 메모리에 캐시됩니다.

4. 캐시된 중간 키-값 쌍은 정기적으로 로컬 디스크에 기록되고 R의 크기는 앞으로 사용자가 정의합니다. a Reduce 작업 ;이러한 중간 키-값 쌍의 위치는 마스터에게 통보되고 마스터는 이 정보를 Reduce 작업자에게 전달할 책임이 있습니다.

5. 마스터는 자신이 담당하는 파티션이 위치한 Reduce 작업을 할당받은 작업자에게 알립니다. (두 개 이상의 위치가 있어야 하며 각 Map 작업에서 생성된 중간 키-값 쌍은 모든 R의 다른 파티션에 매핑됨) Reduce 작업자가 자신이 담당하는 모든 중간 키-값 쌍을 읽을 때 먼저 정렬하여 동일한 키를 가진 키-값 쌍이 함께 모이도록 합니다. 동일한 파티션, 즉 동일한 Reduce 작업(파티션 수가 더 적은 작업)에 서로 다른 키가 매핑될 수 있으므로 정렬이 필요합니다.

6. 축소 작업자는 정렬된 중간 키-값 쌍을 순회하며 축소 함수에 의해 생성된 출력이 추가됩니다. 이 파티션을 출력 파일에 넣습니다.

7. 모든 Map 및 Reduce 작업이 완료되면 마스터는 정품 사용자 프로그램을 깨우고 MapReduce 함수 호출은 사용자 프로그램의 코드를 반환합니다.

모든 실행이 완료된 후 MapReduce 출력은 R 파티션(각각 Reduce 작업에 해당)의 출력 파일에 배치됩니다. 사용자는 일반적으로 이러한 R 파일을 병합할 필요가 없지만 처리를 위해 다른 MapReduce 프로그램에 대한 입력으로 사용합니다. 전체 프로세스 동안 입력 데이터는 기본 분산 파일 시스템(GFS)에서 나오고, 중간 데이터는 로컬 파일 시스템에 배치되며, 최종 출력 데이터는 기본 분산 파일 시스템(GFS)에 기록됩니다. 그리고 Map/Reduce 작업과 Map/Reduce 함수의 차이점에 주의해야 합니다. Map 작업은 입력 데이터의 분할을 처리하며 각 입력 키-값 쌍을 처리하기 위해 Map 함수를 여러 번 호출해야 할 수도 있습니다. 파티션 값 쌍의 중간 키. 이 동안 감소 함수는 각각의 다른 키에 대해 한 번씩 호출되고 감소 작업은 최종적으로 출력 파일에 해당합니다.

자바 관련 기술 기사를 더 보려면

Java 개발 튜토리얼 컬럼을 방문하여 알아보세요!

위 내용은 맵리듀스 원리의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.