Google은 2003년부터 2006년까지 매우 영향력 있는 세 가지 기사를 연달아 발표했습니다. 즉, 2003년 SOSP에 출시된 GFS, 2004년 OSDI에 출시된 MapReduce, 2006년 OSDI에 출시된 BigTable입니다. . GFS는 파일 시스템과 관련되어 있으며 후속 분산 파일 시스템 설계에 중요한 역할을 합니다. MapReduce는 작업 예약에 사용되는 병렬 컴퓨팅 프로그래밍 모델입니다. BigTable은 GFS, Chubby와 같은 Google 기술을 기반으로 구축되었습니다. , SSTable 등 상당수의 Google 애플리케이션은 Google 검색, Google 어스, Google Analytics 등과 같은 세 가지 기술을 사용합니다. 따라서 이 세 가지 기술을 Google 기술의 '3대 보물'이라고 통칭합니다. 오늘도 D Gua Ge는 MapReduce에서 "요리 일"을 하기 위해 최선을 다하고 있습니다!
MapReduce 소개
MapReduce는 매우 큰 데이터 세트를 처리하고 생성하기 위한 프로그래밍 모델이자 알고리즘 모델의 관련 구현입니다. 사용자는 먼저 키/값 쌍을 기반으로 데이터 세트를 처리하기 위해
맵 함수를 생성하고 키/값 쌍을 기반으로 중간 데이터 세트를 출력한 다음
모든 데이터 세트를 동일하게 병합하는 축소 함수를 생성합니다. 중간 키 값의 중간 값입니다.
천마디 말보다 한 장의 그림이 중요합니다. 그림을 사용하여 MapReduce를 설명해 보겠습니다.
var Job = {
//처리할 데이터
data : [
"여기서 만나서 반갑습니다. 이 사이트는",
"시와 시를 가능하게 하는 사람들에게 헌정되었습니다. ",
" 시인과 그 독자. FamousPoetsAndPoems.com은 ",
"무료 시 사이트입니다. 우리 사이트에서는 "631명이 넘는 시인의 시와 인용문 모음"을 찾을 수 있습니다. ,
"시를 읽고 즐기세요",
"나도 미국을 노래합니다",
"나는 더 어두운 형제입니다",
"그들은 나를 부엌에서 먹으라고 보냅니다",
"회사 오면" ,
"그래도 웃어요",
"잘 먹고",
"그리고 씩씩하게 자라",
"내일",
"밥상에 있을게요" ",
" 회사 오면",
"아무도 감히",
"말해봐",
"주방에서 먹어",
"그럼",
"게다가 ",
" 내가 얼마나 아름다운지 보게 될 것이다",
"그리고 부끄러워하라",
"나도 미국인이다"
],
//각각 분리 공백이 있는 데이터의 문자열 행 Open,
// 그리고 이를 {key: word, value: 1} 형식의 객체로 "재구성"하고 객체 배열을 반환합니다.
map : function(line) {
var Splits = line.split(" ");
var temp = []
for(var i=0; i
temp.push( {key : Splits[i], value : 1} );
}
return temp;
},
//"data"에 각 단어가 나타나는 횟수를 계산합니다.
: function(allSteps) {
var result = {};
for(var i=0; ivar step = allSteps[i]
result[ step.key] = result[step.key] ? (result[step.key] 1) : 1;
}
return result;
}//초기화 작동 포인트.
init : function() {
var allSteps = [];
for(var i=0; i//여러 스레드를 호출할 수 있는 경우 여기 Job.map 기능이 훨씬 더 현실적입니다. ? ?
allSteps = allSteps.concat(Job.map(Job.data[i]));
}
//유일한 단점은 여기서 여러 스레드에서 Job.reduce 함수를 호출할 수 없다는 것입니다. ?
var result = Job.reduce(allSteps)
console.log(JSON.stringify(result));
}
} // 작업
//작업 실행 시작
.초기화()
이 코드를 복사하여 브라우저 콘솔(콘솔)에 직접 붙여넣거나 HTML 파일에 넣고 브라우저에서 열면 콘솔 출력에서 다음 효과를 볼 수 있습니다.
연고의 결점
이 기사가 게재된 후 일부 네티즌들은 "멀티스레딩도 없는 js가 과연 어떤 맵리듀스를 할 수 있느냐"며 "사실 D과 형제님"이라고 소리쳤다. 또한 이 질문을 했습니다. 찾았습니다. 이 코드에 대한 설명을 본 후, D 구아 형제는 자바스크립트가 단일 프로세스가 아닌가 하는 생각이 들었습니다. MapReduce를 어떻게 시뮬레이션할 수 있나요? 코드를 주의 깊게 읽고 단일 단계 디버깅을 수행한 후 D Gua Ge의 견해가 더욱 확증되었습니다. (D Gua Ge에 대한 질문은 코드에 주석으로 달았습니다.)
그러나 다시 생각해보면 이것이 MapReduce의 원리를 이해하는 데에는 영향을 주지 않습니다. 이것은 가장 기본적인 버전인 단일 프로세스일 뿐입니다. 이것을 먼저 이해하고 나면 멀티스레딩 전체 과정을 이해하는 것이 더 쉬울 수도 있습니다.
계속
사실 D 형제는 이제 시뮬레이션된 MapReduce가 더욱 현실적으로 구현되도록 Java를 사용하여 이 예를 기반으로 하는 멀티 스레드 버전을 구현하는 것을 고려하고 있습니다. D 과 형제는 몇 가지 문제를 명확하게 숙고한 후 코드를 발송할 것입니다. 계속 지켜봐 주시기 바랍니다!