MongoDB 집계
MongoDB의 집계는 주로 데이터(예: 통계 평균, 합계 등)를 처리하고 계산된 데이터 결과를 반환하는 데 사용됩니다. SQL 문의 count(*)와 다소 유사합니다.
aggregate() 메서드
MongoDB의 집계 메서드는 Aggregate()를 사용합니다.
구문
aggregate() 메서드의 기본 구문 형식은 다음과 같습니다.
>db.COLLECTION_NAME.aggregate(AGGREGATE_OPERATION)
Instance
컬렉션의 데이터는 다음과 같습니다.
{ _id: ObjectId(7df78ad8902c) title: 'MongoDB Overview', description: 'MongoDB is no sql database', by_user: 'w3cschool.cc', url: 'http://www.w3cschool.cc', tags: ['mongodb', 'database', 'NoSQL'], likes: 100 }, { _id: ObjectId(7df78ad8902d) title: 'NoSQL Overview', description: 'No sql database is very fast', by_user: 'w3cschool.cc', url: 'http://www.w3cschool.cc', tags: ['mongodb', 'database', 'NoSQL'], likes: 10 }, { _id: ObjectId(7df78ad8902e) title: 'Neo4j Overview', description: 'Neo4j is no sql database', by_user: 'Neo4j', url: 'http://www.neo4j.com', tags: ['neo4j', 'database', 'NoSQL'], likes: 750 },
이제 위의 모음을 통해 각 저자가 작성한 기사 수를 계산하고, 집계()를 사용하여 다음과 같이 결과를 계산합니다.
> db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$sum : 1}}}]) { "result" : [ { "_id" : "w3cschool.cc", "num_tutorial" : 2 }, { "_id" : "Neo4j", "num_tutorial" : 1 } ], "ok" : 1 } >
위의 예는 SQL과 유사합니다. 명령문: select by_user, count(*) from mycol group by by_user
위의 예에서는 by_user 필드별로 데이터를 그룹화하고 동일한 값의 합계를 계산합니다. by_user 필드의
다음 표에는 몇 가지 집계 표현식이 나와 있습니다.
表达式 | 描述 | 实例 |
---|---|---|
$sum | 计算总和。 | db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$sum : "$likes"}}}]) |
$avg | 计算平均值 | db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$avg : "$likes"}}}]) |
$min | 获取集合中所有文档对应值得最小值。 | db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$min : "$likes"}}}]) |
$max | 获取集合中所有文档对应值得最大值。 | db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$max : "$likes"}}}]) |
$push | 在结果文档中插入值到一个数组中。 | db.mycol.aggregate([{$group : {_id : "$by_user", url : {$push: "$url"}}}]) |
$addToSet | 在结果文档中插入值到一个数组中,但不创建副本。 | db.mycol.aggregate([{$group : {_id : "$by_user", url : {$addToSet : "$url"}}}]) |
$first | 根据资源文档的排序获取第一个文档数据。 | db.mycol.aggregate([{$group : {_id : "$by_user", first_url : {$first : "$url"}}}]) |
$last | 根据资源文档的排序获取最后一个文档数据 | db.mycol.aggregate([{$group : {_id : "$by_user", last_url : {$last : "$url"}}}]) |
파이프의 개념
파이프라인은 일반적으로 유닉스와 리눅스에서 현재 명령의 출력을 다음 명령의 매개변수로 사용하기 위해 사용된다.
MongoDB의 집계 파이프라인은 하나의 파이프라인이 완료된 후 처리를 위해 MongoDB 문서 결과를 다음 파이프라인으로 전달합니다. 파이프라인 작업은 반복 가능합니다.
표현식 : 입력문서를 처리하여 출력합니다. 표현식은 상태 비저장이며 현재 집계 파이프라인의 문서를 계산하는 데만 사용할 수 있으며 다른 문서를 처리할 수 없습니다.
여기에서는 집계 프레임워크에서 일반적으로 사용되는 몇 가지 작업을 소개합니다.
$project: 입력 문서의 구조를 수정합니다. 필드 이름을 바꾸거나 필드를 추가 또는 삭제하는 데 사용할 수 있으며 계산 결과 및 중첩 문서를 만드는 데에도 사용할 수 있습니다.
$match: 데이터를 필터링하고 조건에 맞는 문서만 출력하는 데 사용됩니다. $match는 MongoDB의 표준 쿼리 작업을 사용합니다.
$limit: MongoDB 집계 파이프라인에서 반환되는 문서 수를 제한하는 데 사용됩니다.
$skip: 집계 파이프라인에서 지정된 수의 문서를 건너뛰고 나머지 문서를 반환합니다.
$unwind: 문서의 배열 유형 필드를 각각 배열의 값을 포함하는 여러 필드로 분할합니다.
$group: 컬렉션의 문서를 그룹화하여 통계 결과에 사용할 수 있습니다.
$sort: 입력 문서를 정렬하여 출력합니다.
$geoNear: 특정 지리적 위치에 가까운 주문된 문서를 출력합니다.
파이프라인 연산자 인스턴스
1.$project 인스턴스
db.article.aggregate( { $project : { title : 1 , author : 1 , }} );
_id, Tilt 및 Author의 세 가지 필드가 있습니다. 기본적으로 _id 필드를 포함하지 않으려면 다음과 같이 하면 됩니다.
db.article.aggregate( { $project : { _id : 0 , title : 1 , author : 1 }});
2.$match 인스턴스
db.articles.aggregate( [ { $match : { score : { $gt : 70, $lte : 90 } } }, { $group: { _id: null, count: { $sum: 1 } } } ] );
$match는 점수가 70보다 크고 90보다 작거나 같은 레코드를 얻은 후, 조건을 충족하는 레코드를 다음 단계의 $group 파이프라인 운영자에게 전송하여 처리하는 데 사용됩니다.
3.$skip 인스턴스
db.article.aggregate( { $skip : 5 });
$skip 파이프라인 연산자에 의해 처리된 후 처음 5개 문서가 "필터링"됩니다.