Hadoop을 사용해본 친구는 MapReduce에 익숙할 것입니다. MapReduce는 큰 문제를 여러 개의 작은 문제로 분할하고 각각의 작은 문제를 다른 시스템으로 보내 처리를 완료할 수 있습니다. 결과는 분산 컴퓨팅이라고 불리는 완전한 솔루션으로 결합됩니다. 이번 글에서는 MongoDB에서 MapReduce를 사용하는 방법을 살펴보겠습니다.
mapReduce
MongoDB의 MapReduce는 보다 복잡한 집계 명령을 구현하는 데 사용할 수 있습니다. MapReduce를 사용하면 주로 두 가지 기능을 구현할 수 있습니다. map 함수는 일련의 키-값 쌍을 생성하는 데 사용됩니다. map 함수의 결과 Reduce 함수의 매개변수로 Reduce 함수에서 추가 통계가 수행됩니다. 예를 들어 내 데이터 세트는 다음과 같습니다.
{"_id" : ObjectId("59fa71d71fd59c3b2cd908d7"),"name" : "鲁迅","book" : "呐喊","price" : 38.0,"publisher" : "人民文学出版社"} {"_id" : ObjectId("59fa71d71fd59c3b2cd908d8"),"name" : "曹雪芹","book" : "红楼梦","price" : 22.0,"publisher" : "人民文学出版社"} {"_id" : ObjectId("59fa71d71fd59c3b2cd908d9"),"name" : "钱钟书","book" : "宋诗选注","price" : 99.0,"publisher" : "人民文学出版社"} {"_id" : ObjectId("59fa71d71fd59c3b2cd908da"),"name" : "钱钟书","book" : "谈艺录","price" : 66.0,"publisher" : "三联书店"} {"_id" : ObjectId("59fa71d71fd59c3b2cd908db"),"name" : "鲁迅","book" : "彷徨","price" : 55.0,"publisher" : "花城出版社"}
각 저자가 출판한 책의 총 가격을 쿼리하려는 경우
var map=function(){emit(this.name,this.price)} var reduce=function(key,value){return Array.sum(value)} var options={out:"totalPrice"} db.sang_books.mapReduce(map,reduce,options); db.totalPrice.find()
emit 함수는 주로 그룹화를 구현하기 위해 두 개의 매개변수를 받습니다. 첫 번째 매개변수는 그룹화 필드를 나타내고 두 번째 매개변수는 계산할 데이터를 나타내며 특정 데이터 처리 작업을 수행합니다. 여기에서는 방출 메소드의 두 매개변수에 해당하는 두 개의 매개변수를 받습니다. 여기서는 가격 필드에 대한 자체 처리를 수행하는 데 사용됩니다. 그런 다음 여기에서 데이터를 쿼리합니다. 기본적으로 이 컬렉션은 데이터베이스가 다시 시작된 후에도 처리되며 컬렉션의 데이터를 유지합니다. 쿼리 결과는 다음과 같습니다.
{ "_id" : "曹雪芹", "value" : 22.0 } { "_id" : "钱钟书", "value" : 165.0 } { "_id" : "鲁迅", "value" : 93.0 }
또 다른 예로 각 저자가 몇 권의 책을 출판했는지 쿼리하고 싶습니다.
var map=function(){emit(this.name,1)} var reduce=function(key,value){return Array.sum(value)} var options={out:"bookNum"} db.sang_books.mapReduce(map,reduce,options); db.bookNum.find()
쿼리 결과는 다음과 같습니다.
{ "_id" : "曹雪芹", "value" : 1.0 } { "_id" : "钱钟书", "value" : 2.0 } { "_id" : "鲁迅", "value" : 2.0 }
각 저자의 책을 다음과 같이 나열합니다.
var map=function(){emit(this.name,this.book)} var reduce=function(key,value){return value.join(',')} var options={out:"books"} db.sang_books.mapReduce(map,reduce,options); db.books.find()
결과는 다음과 같습니다.
{ "_id" : "曹雪芹", "value" : "红楼梦" } { "_id" : "钱钟书", "value" : "宋诗选注,谈艺录" } { "_id" : "鲁迅", "value" : "呐喊,彷徨" }
예를 들어, 각 사람이 40엔 이상 판매하는 책을 쿼리하려면:
var map=function(){emit(this.name,this.book)} var reduce=function(key,value){return value.join(',')} var options={query:{price:{$gt:40}},out:"books"} db.sang_books.mapReduce(map,reduce,options); db.books.find()
query는 찾은 컬렉션을 필터링한다는 의미입니다.
결과는 다음과 같습니다.
{ "_id" : "钱钟书", "value" : "宋诗选注,谈艺录" } { "_id" : "鲁迅", "value" : "彷徨" }
runCommand 명령을 사용하여 MapReduce를 실행할 수도 있습니다. 형식은 다음과 같습니다.
db.runCommand( { mapReduce: <collection>, map: <function>, reduce: <function>, finalize: <function>, out: <output>, query: <document>, sort: <document>, limit: <number>, scope: <document>, jsMode: <boolean>, verbose: <boolean>, bypassDocumentValidation: <boolean>, collation: <document> } )
의미는 다음과 같습니다.
매개변수 | 의미 |
---|---|
mapReduce | 는 |
map | 에서 작동할 집합을 나타냅니다.지도 기능 |
reduce | reduce 기능 |
finalize | 최종 처리 기능 |
out | 출력 세트 |
query | 결과 필터링 |
sort | 결과 정렬 |
limit | 반환된 결과 수 |
scope | 여기서 설정한 값은 맵, 축소, 마무리 기능에 표시됩니다. |
jsMode | javascript 객체에서 BSON 객체로 실행 매핑, 기본값 false로 설정 |
verbose | 자세한 시간 통계 표시 여부 |
bypassDocumentValidation | 문서 유효성 검사 우회 여부 |
collation | 다른 교정 |
다음 연산은 MapReduce 연산의 실행을 나타내며 통계 수집을 위해 반환 항목 수를 제한한 후 반환 항목 수를 제한한 후 통계 연산을 수행합니다.
var map=function(){emit(this.name,this.book)} var reduce=function(key,value){return value.join(',')} db.runCommand({mapreduce:'sang_books',map,reduce,out:"books",limit:4,verbose:true}) db.books.find()
실행 결과는 다음과 같습니다.
{ "_id" : "曹雪芹", "value" : "红楼梦" } { "_id" : "钱钟书", "value" : "宋诗选注,谈艺录" } { "_id" : "鲁迅", "value" : "呐喊" }
내 친구들은 Lu Xun의 책 중 하나가 누락된 것을 보았습니다. 왜냐하면 제한이 먼저였기 때문입니다. 통계 작업을 수행하기 전에 컬렉션에서 반환되는 항목 수를 제한하십시오.
finalize 작업은 다음과 같이 최종 처리 함수를 나타냅니다.
var f1 = function(key,reduceValue){var obj={};obj.author=key;obj.books=reduceValue; return obj} var map=function(){emit(this.name,this.book)} var reduce=function(key,value){return value.join(',')} db.runCommand({mapreduce:'sang_books',map,reduce,out:"books",finalize:f1}) db.books.find()
f1의 첫 번째 매개변수 키는 내보내기의 첫 번째 매개변수를 나타내고, 두 번째 매개변수는 축소의 실행 결과를 나타냅니다. 이 결과는 f1에서 다시 처리할 수 있습니다.
{ "_id" : "曹雪芹", "value" : { "author" : "曹雪芹", "books" : "红楼梦" } } { "_id" : "钱钟书", "value" : { "author" : "钱钟书", "books" : "宋诗选注,谈艺录" } } { "_id" : "鲁迅", "value" : { "author" : "鲁迅", "books" : "呐喊,彷徨" } }
scope는 다음과 같이 맵에 표시되는 변수를 정의하고, 축소하고, 마무리하는 데 사용할 수 있습니다.
var f1 = function(key,reduceValue){var obj={};obj.author=key;obj.books=reduceValue;obj.sang=sang; return obj} var map=function(){emit(this.name,this.book)} var reduce=function(key,value){return value.join(',--'+sang+'--,')} db.runCommand({mapreduce:'sang_books',map,reduce,out:"books",finalize:f1,scope:{sang:"haha"}}) db.books.find()
실행 결과는 다음과 같습니다.
{ "_id" : "曹雪芹", "value" : { "author" : "曹雪芹", "books" : "红楼梦", "sang" : "haha" } } { "_id" : "钱钟书", "value" : { "author" : "钱钟书", "books" : "宋诗选注,--haha--,谈艺录", "sang" : "haha" } } { "_id" : "鲁迅", "value" : { "author" : "鲁迅", "books" : "呐喊,--haha--,彷徨", "sang" : "haha" } }
이 글을 읽고 뭔가 얻으시길 바랍니다. 기사.
관련 권장 사항:
mongodb mapreduce 사용법 및 PHP 샘플 코드
MongoDB MapReduce 속도를 20배 높이는 방법
위 내용은 MongoDB에서 MapReduce 사용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!