mongodbmapreduce使用总结-mysql教程-PHP中文網

首頁

資料庫

mysql教程

mongodbmapreduce使用总结

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 03:59 PM

m使用總結知道

大家都知道，mongodb是一个非关系型数据库，也就是说，mongodb数据库中的每张表是独立存在的，表与表之间没有任何依赖关系。在mongodb中，除了各种CRUD语句之外，还给我们提供了聚合和mapreduce统计的功能，这篇文章主要来跟大家聊聊mongodb的mapreduce的操

大家都知道，mongodb是一个非关系型数据库，也就是说，mongodb数据库中的每张表是独立存在的，表与表之间没有任何依赖关系。在mongodb中，除了各种CRUD语句之外，还给我们提供了聚合和mapreduce统计的功能，这篇文章主要来跟大家聊聊mongodb的mapreduce的操作。

mapreduce的概念我就不赘述了，大家自己去查查吧。

在mongodb中，mapreduce的语法如下：

db.table.mapReduce(
        map,
        reduce,
        {
            query: query,
            out: out,    //指定结果集以什么方式存储，可选参数包括：
                        //replace:如果文档(table)存在，则替换table，
                        //merge:如果文档中存在记录，则覆盖已存在的文档记录
                        //reduce: 如果文档中存在相同key的记录了，则先计算两条记录，然后覆盖旧记录
                        // {inline:1}  在内存中存储记录，不写入磁盘(用户数据量少的计算)
            sort: sort,
            limit: limit,
            finalize: function  //这个function主要用来在存入out之前可以修改数据，function(key,values) { 
                                //return modifiedValues;}
            scope: document,    //指定reduce可访问的文档范围
            jsMode:boolean      //指定是否在map和ruduce之间立即将数据转换为Bason格式，默认为false
                                //如果想设置为true,则要记住官方我那当的注意事项：
                                //You can only use jsMode for result sets with fewer than
                                //500,000 distinct key arguments to the mapper&rsquo;s emit()function.
            verbose:boolean     //是否在结果集中包含timing信息，默认是包含的
        }
    )

在做mongodb的mapreduce时，要确保你的query是可以利用到索引的，不然在大数据量的统计下，将会托夸整个数据库，如果确实没办法建索引，那么就在结果集中判断一些不符合条件的数据，而去掉query。

mapreduce的语法其实很简单，只不过这里面有几点需要注意一下：

1.在map中，mongodb是每1000条数据就reduce一次

2.在map中，如果你想统计一个数据之和，需要这样写：

emit(key:this.key,sum:0})

然后再在reduce里需要将上一次的sum迭代累加起来，然后return {sum:sum};如果不这样做，你计算出来的数据总是最后不足1000条数据之后统计出来的，而前面的数据就都丢失了。

3.如果能不用mapreduce，就不用，程序能够统计的，就不要用mongodb频繁统计。

4.mapreduce的结果集的数据格式是：{_id:key,value:{}},因此如果想直接使用这个表的话，最好再重新将数据格式整理一次，尽量将数据放在最上次，而不是再用value.xxx去查询。

这里附上统计我们网站的用户发表内容的数量的mapreduce，仅供一种代码格式的参考价值吧：

var db = connect(&#39;127.0.0.1:27017/test&#39;);
db.aAccounttemp.drop();
var map = function() {
    emit(this.accountId, 
        {sum:0,
            reblogFlag:this.reblogFlag,dashboardFlag:this.dashboardFlag,dashboardType:this.dashboardType,
            photoNum:0,postNum:0,reblogNum:0,videoNum:0,videoShortNum:0, musicNum:0,
            questionNum:0,appNum:0, dialogNum:0});
}

var reduce = function(key,values) {

    var sum = 0;
    var photoNum = 0;
    var postNum = 0;
    var reblogNum = 0;
    var videoNum = 0;
    var videoShortNum = 0;
    var musicNum = 0;
    var questionNum = 0;
    var appNum = 0;
    var dialogNum = 0;
    for (var i = 0; i < values.length; i++) {
        var data = values[i];
        var reblogFlag = data.reblogFlag;
        var dashboardFlag = data.dashboardFlag;
        var dashboardType = data.dashboardType;
        sum += data.sum;
        photoNum += data.photoNum;
        reblogNum += data.reblogNum;
        postNum += data.postNum;
        videoNum += data.videoNum;
        musicNum += data.musicNum;
        videoShortNum += data.videoShortNum;
        questionNum += data.questionNum;
        appNum += data.appNum;
        dialogNum += data.dialogNum;
        if(!reblogFlag) {
            if(dashboardFlag) {
                sum += 1;
                if(dashboardType == 10) {
                    postNum += 1;
                } else if(dashboardType == 20) {
                    photoNum += 1;
                } else if(dashboardType == 30) {
                    videoNum += 1;
                } else if(dashboardType == 31) {
                    videoShortNum += 1;
                } else if(dashboardType == 40) {
                    musicNum += 1;
                } else if(dashboardType == 60) {
                    questionNum += 1;
                } else if(dashboardType == 100) {
                    appNum += 1;
                } else if(dashboardType == 91) {
                    dialogNum += 1;
                }
            } else {
                if(dashboardType == 20) {
                    photoNum += 1;
                }
            }
        } else if(reblogFlag && dashboardFlag) {
            reblogNum += 1;
        }
        
    }
    return {sum:NumberInt(sum),reblogNum:NumberInt(reblogNum),postNum:NumberInt(postNum),photoNum:NumberInt(photoNum),
        videoNum:NumberInt(videoNum),videoShortNum:NumberInt(videoShortNum),
        musicNum:NumberInt(musicNum), questionNum:NumberInt(questionNum),appNum:NumberInt(appNum),dialogNum:NumberInt(dialogNum)};
};
db.getMongo().setSlaveOk();
db.dashboard_basic.mapReduce(
        map,
        reduce,
        {
            out:{merge:&#39;aAccounttemp&#39;}
        }
    );
var results = db.aAccounttemp.find();
//重新整理数据格式，存入正规表中
while (results.hasNext()) {
    var obj = results.next();
    var value = obj.value;
    var sum = NumberInt(value.sum);
    var reblogNum = NumberInt(value.reblogNum);
    var postNum = NumberInt(value.postNum);
    var photoNum = NumberInt(value.photoNum);
    var videoNum = NumberInt(value.videoNum);
    var videoShortNum = NumberInt(value.videoShortNum);
    var musicNum  = NumberInt(value.musicNum);
    var questionNum = NumberInt(value.questionNum);
    var appNum = NumberInt(value.appNum);
    var dialogNum = NumberInt(value.dialogNum);
    var accountId = obj._id;
    db.dashboard_account_num.insert({accountId:accountId,sum:sum,reblogNum:reblogNum,postNum:postNum,photoNum:photoNum,
        videoShortNum:videoShortNum,videoNum:videoNum,musicNum:musicNum,questionNum:questionNum,
        appNum:appNum,dialogNum:dialogNum});
}

print(&#39;success insert total &#39; + results.count()+ &#39; datas&#39;);
db.aAccounttemp.drop()
quit()

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

您什麼時候應該使用複合索引與多個單列索引？Apr 11, 2025 am 12:06 AM

在數據庫優化中，應根據查詢需求選擇索引策略：1.當查詢涉及多個列且條件順序固定時，使用複合索引；2.當查詢涉及多個列但條件順序不固定時，使用多個單列索引。複合索引適用於優化多列查詢，單列索引則適合單列查詢。

如何識別和優化MySQL中的慢速查詢？（慢查詢日誌，performance_schema）Apr 10, 2025 am 09:36 AM

要優化MySQL慢查詢，需使用slowquerylog和performance_schema：1.啟用slowquerylog並設置閾值，記錄慢查詢；2.利用performance_schema分析查詢執行細節，找出性能瓶頸並優化。

MySQL和SQL：開發人員的基本技能Apr 10, 2025 am 09:30 AM

MySQL和SQL是開發者必備技能。 1.MySQL是開源的關係型數據庫管理系統，SQL是用於管理和操作數據庫的標準語言。 2.MySQL通過高效的數據存儲和檢索功能支持多種存儲引擎，SQL通過簡單語句完成複雜數據操作。 3.使用示例包括基本查詢和高級查詢，如按條件過濾和排序。 4.常見錯誤包括語法錯誤和性能問題，可通過檢查SQL語句和使用EXPLAIN命令優化。 5.性能優化技巧包括使用索引、避免全表掃描、優化JOIN操作和提升代碼可讀性。

描述MySQL異步主奴隸複製過程。Apr 10, 2025 am 09:30 AM

MySQL異步主從復制通過binlog實現數據同步，提升讀性能和高可用性。 1)主服務器記錄變更到binlog；2)從服務器通過I/O線程讀取binlog；3)從服務器的SQL線程應用binlog同步數據。

mysql：簡單的概念，用於輕鬆學習Apr 10, 2025 am 09:29 AM

MySQL是一個開源的關係型數據庫管理系統。 1）創建數據庫和表：使用CREATEDATABASE和CREATETABLE命令。 2）基本操作：INSERT、UPDATE、DELETE和SELECT。 3）高級操作：JOIN、子查詢和事務處理。 4）調試技巧：檢查語法、數據類型和權限。 5）優化建議：使用索引、避免SELECT*和使用事務。

MySQL：數據庫的用戶友好介紹Apr 10, 2025 am 09:27 AM

MySQL的安裝和基本操作包括：1.下載並安裝MySQL，設置根用戶密碼；2.使用SQL命令創建數據庫和表，如CREATEDATABASE和CREATETABLE；3.執行CRUD操作，使用INSERT,SELECT,UPDATE,DELETE命令；4.創建索引和存儲過程以優化性能和實現複雜邏輯。通過這些步驟，你可以從零開始構建和管理MySQL數據庫。

InnoDB緩衝池如何工作，為什麼對性能至關重要？Apr 09, 2025 am 12:12 AM

InnoDBBufferPool通過將數據和索引頁加載到內存中來提升MySQL數據庫的性能。 1)數據頁加載到BufferPool中，減少磁盤I/O。 2)臟頁被標記並定期刷新到磁盤。 3)LRU算法管理數據頁淘汰。 4)預讀機制提前加載可能需要的數據頁。

MySQL：初學者的數據管理易用性Apr 09, 2025 am 12:07 AM

MySQL適合初學者使用，因為它安裝簡單、功能強大且易於管理數據。 1.安裝和配置簡單，適用於多種操作系統。 2.支持基本操作如創建數據庫和表、插入、查詢、更新和刪除數據。 3.提供高級功能如JOIN操作和子查詢。 4.可以通過索引、查詢優化和分錶分區來提升性能。 5.支持備份、恢復和安全措施，確保數據的安全和一致性。

See all articles