搜尋

首頁  >  問答  >  主體

java - mongodb分片集群下,count和聚合统计问题

在mongodb分片集群下,直接用count统计会不准确,用聚合统计则可以

但是在java或mongodb客户端(非命令行)调用mongodb,使用聚合统计时,统计的结果和count同样不准确,请问大神们,我的代码如下,请大神指点,找不到原因!

@Test
public void testCount() throws Exception {
    DynamicSqlParameter dsp = new DynamicSqlParameter();
    long sT = System.currentTimeMillis();
    MongoDatasource mongoDatasource = MongoDatasource.getInstance(mongoService.getDatasource());
    DBCollection dbCollection = mongoDatasource.getDB().getCollection("dayFlow");
    List arrayList = new ArrayList<>();
    DBObject dbObject1 = new BasicDBObject();
    dbObject1.put("usedDayFlow", 2);
    DBObject dbObject2 = new BasicDBObject();
    dbObject2.put("_id", null);
    dbObject2.put("count", new BasicDBObject("$sum", 1));
    arrayList.add(new BasicDBObject("$match", dbObject1));
    arrayList.add(new BasicDBObject("$group", dbObject2));
    System.out.println(JSON.serialize(arrayList));
    AggregationOutput size = dbCollection.aggregate(arrayList);
    System.out.println(size.results());
    System.out.println("运行时间:" + ((System.currentTimeMillis() - sT) /1000) + "s");
}

执行结果:

[ { "$match" : { "usedDayFlow" : 2}} , { "$group" : { "_id" : null , "count" : { "$sum" : 1}}}]

[{ "_id" : null , "count" : 1002223}]

该统计结果比实际数据量要多一些,请教大神,对于分片集群的聚合统计要如何操作?

天蓬老师天蓬老师2803 天前791

全部回覆(2)我來回復

  • PHP中文网

    PHP中文网2017-04-18 10:53:35

     該問題已經解決,使用的是最新驅動mongo-java-driver-3.4.0,透過下面的方法可以在分片集群模式下,準確的統計到記錄數量,感謝大家的相助!

    mongo shell >> db.collection.aggregate([{$match:{categories:"Bakery"},{$group:{"_id":null,"count":{$sum:1}}}}])

        public long getCount() {
                    String user = "用户名";
                    String database = "admin";
                    String password = "密码";
                    MongoCredential credential = MongoCredential.createCredential(user,database, password.toCharArray());
            
                    MongoClientOptions options = MongoClientOptions.builder()
                            .connectionsPerHost(10)
                            .threadsAllowedToBlockForConnectionMultiplier(10)
                            .socketTimeout(20000)
                            .connectTimeout(15000)
                            .maxWaitTime(50000)
                            .build();
            
                    MongoClient mongoClient = new MongoClient(new ServerAddress("IP地址", "端口"), Arrays.asList(credential), options);
            
                    MongoDatabase mongoDatabase = mongoClient.getDatabase("数据库");
                    MongoCollection<Document> collection = mongoDatabase.getCollection("数据表");
            
                    final long[] count = new long[1];
                    Block<Document> printBlock = new Block<Document>() {
                        @Override
                        public void apply(final Document document) {
                             count[0] = (long) document.get("count");
                        }
                    };
                    Bson bson = Filters.eq("categories", "Bakery");
                    collection.aggregate(
                            Arrays.asList(
                                    Aggregates.match(bson),
                                    Aggregates.group(null, Accumulators.sum
                                            ("count", 1L))
                            )
                    ).forEach(printBlock);
            
                    return count[0];
    }

    回覆
    0
  • 阿神

    阿神2017-04-18 10:53:35

    能否補充一些評論中的資訊。多謝!

    將評論的內容轉發在這裡,方便查看:

    1、count和aggregate的不同:在mongoDB中,count和aggregate是在兩個不同的程式中實現的,aggregate的實現是考慮到了shard的環境的,所以官方文檔是推薦使用aggregate來進行shard環境下的count。

    2、MongoDB shell下使用aggregate和使用Java MongoDB驅動程式使用aggregate來進行count,結果應該是一樣的,因為兩者都是使用的aggregate。

    您提到Issue大概是MongoDB shell和Java MongoDB驅動程式進行count的結果不一致。

    這種不一致,我覺得可能是:

    1)比较的过程有没有纰漏;
    2)所用的Java MongoDB驱动是否有纰漏。
    

    供參考。

    Love MongoDB! Have Fun!


    今晚8點,MongoDB中文社群大神線上講座,請大家踴躍參與;此大神常駐本版喔!

    請戳此連結。

    回覆
    0
  • 取消回覆