文章来自本人个人博客: mongodb mapreduce使用总结 ​

大家都知道,mongodb是一个非关系型数据库。也就是说。mongodb数据库中的每张表是独立存在的,表与表之间没有不论什么依赖关系。在mongodb中。除了各种CRUD语句之外。还给我们提供了聚合和mapreduce统计的功能,这篇文章主要来跟大家聊聊mongodb的mapreduce的操作。

​mapreduce的概念我就不赘述了,大家自己去查查吧。

​在mongodb中,mapreduce的语法例如以下:

db.table.mapReduce(
map,
reduce,
{
query: query,
out: out, //指定结果集以什么方式存储,可选參数包括:
//replace:假设文档(table)存在。则替换table,
//merge:假设文档中存在记录。则覆盖已存在的文档记录
//reduce: 假设文档中存在同样key的记录了,则先计算两条记录。然后覆盖旧记录
// {inline:1} 在内存中存储记录,不写入磁盘(用户数据量少的计算)
sort: sort,
limit: limit,
finalize: function //这个function主要用来在存入out之前能够改动数据。function(key,values) {
//return modifiedValues;}
scope: document, //指定reduce可訪问的文档范围
jsMode:boolean //指定是否在map和ruduce之间马上将数据转换为Bason格式,默觉得false
//假设想设置为true,则要记住官方我那当的注意事项:
//You can only use jsMode for result sets with fewer than
//500,000 distinct key arguments to the mapper’s emit()function.
verbose:boolean //是否在结果集中包括timing信息,默认是包括的
}
)

​在做mongodb的mapreduce时。要确保你的query是能够利用到索引的,不然在大数据量的统计下,将会托夸整个数据库,假设确实没办法建索引,那么就在结果集中推断一些不符合条件的数据,而去掉query。

​mapreduce的语法事实上非常easy,仅仅只是这里面有几点须要注意一下:

​    ​1.在map中,mongodb是每1000条数据就reduce一次

​    ​2.在map中,假设你想统计一个数据之和。须要这样写:

​    ​    ​emit(key:this.key,sum:0})

​    ​    ​然后再在reduce里须要将上一次的sum迭代累加起来,然后return {sum:sum};假设不这样做,你计算出来的数据总是最后不足1000条数据之后统计出来的,而前面的数据就都丢失了。

​   3.假设能不用mapreduce,就不用,程序可以统计的,就不要用mongodb频繁统计。

​   4.mapreduce的结果集的数据格式是:{_id:key,value:{}},因此假设想直接使用这个表的话。最好再又一次将数据格式整理一次,​尽量将数据放在最上次。而不是再用value.xxx去查询。

​这里附上统计我们站点的用户发表内容的数量的mapreduce。仅供一种代码格式的參考价值吧:

var db = connect('127.0.0.1:27017/test');
db.aAccounttemp.drop();
var map = function() {
emit(this.accountId,
{sum:0,
reblogFlag:this.reblogFlag,dashboardFlag:this.dashboardFlag,dashboardType:this.dashboardType,
photoNum:0,postNum:0,reblogNum:0,videoNum:0,videoShortNum:0, musicNum:0,
questionNum:0,appNum:0, dialogNum:0});
} var reduce = function(key,values) { var sum = 0;
var photoNum = 0;
var postNum = 0;
var reblogNum = 0;
var videoNum = 0;
var videoShortNum = 0;
var musicNum = 0;
var questionNum = 0;
var appNum = 0;
var dialogNum = 0;
for (var i = 0; i < values.length; i++) {
var data = values[i];
var reblogFlag = data.reblogFlag;
var dashboardFlag = data.dashboardFlag;
var dashboardType = data.dashboardType;
sum += data.sum;
photoNum += data.photoNum;
reblogNum += data.reblogNum;
postNum += data.postNum;
videoNum += data.videoNum;
musicNum += data.musicNum;
videoShortNum += data.videoShortNum;
questionNum += data.questionNum;
appNum += data.appNum;
dialogNum += data.dialogNum;
if(!reblogFlag) {
if(dashboardFlag) {
sum += 1;
if(dashboardType == 10) {
postNum += 1;
} else if(dashboardType == 20) {
photoNum += 1;
} else if(dashboardType == 30) {
videoNum += 1;
} else if(dashboardType == 31) {
videoShortNum += 1;
} else if(dashboardType == 40) {
musicNum += 1;
} else if(dashboardType == 60) {
questionNum += 1;
} else if(dashboardType == 100) {
appNum += 1;
} else if(dashboardType == 91) {
dialogNum += 1;
}
} else {
if(dashboardType == 20) {
photoNum += 1;
}
}
} else if(reblogFlag && dashboardFlag) {
reblogNum += 1;
} }
return {sum:NumberInt(sum),reblogNum:NumberInt(reblogNum),postNum:NumberInt(postNum),photoNum:NumberInt(photoNum),
videoNum:NumberInt(videoNum),videoShortNum:NumberInt(videoShortNum),
musicNum:NumberInt(musicNum), questionNum:NumberInt(questionNum),appNum:NumberInt(appNum),dialogNum:NumberInt(dialogNum)};
};
db.getMongo().setSlaveOk();
db.dashboard_basic.mapReduce(
map,
reduce,
{
out:{merge:'aAccounttemp'}
}
);
var results = db.aAccounttemp.find();
//又一次整理数据格式,存入正规表中
while (results.hasNext()) {
var obj = results.next();
var value = obj.value;
var sum = NumberInt(value.sum);
var reblogNum = NumberInt(value.reblogNum);
var postNum = NumberInt(value.postNum);
var photoNum = NumberInt(value.photoNum);
var videoNum = NumberInt(value.videoNum);
var videoShortNum = NumberInt(value.videoShortNum);
var musicNum = NumberInt(value.musicNum);
var questionNum = NumberInt(value.questionNum);
var appNum = NumberInt(value.appNum);
var dialogNum = NumberInt(value.dialogNum);
var accountId = obj._id;
db.dashboard_account_num.insert({accountId:accountId,sum:sum,reblogNum:reblogNum,postNum:postNum,photoNum:photoNum,
videoShortNum:videoShortNum,videoNum:videoNum,musicNum:musicNum,questionNum:questionNum,
appNum:appNum,dialogNum:dialogNum});
} print('success insert total ' + results.count()+ ' datas');
db.aAccounttemp.drop()
quit()

mongodb mapreduce使用总结的更多相关文章

  1. MongoDB MapReduce(转)

    MapReduce MapReduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE).这样做的好处是可以在任务被分解后,可以通过大量机 ...

  2. [MongoDB]mapReduce

    摘要 上篇文章介绍了count,group,distinct几个简单的聚合操作,其中,group比较麻烦一点.本篇文章将学习mapReduce的相关内容. 相关文章 [MongoDB]入门操作 [Mo ...

  3. MongoDB MapReduce学习笔记

    http://cnodejs.org/topic/51a8a9ed555d34c67831fb8b http://garyli.iteye.com/blog/2079158 MapReduce应该算是 ...

  4. 用C#感受MongoDB MapReduce之魅力 转

    MapReduce这个名词随着hadoop的用户的增多,越来越被人关注.MapReduce可谓MongoDB之中的亮点,我也想深入了解MapReduce,加上MongoDB操作简单,所以就选择了它.M ...

  5. MongoDB MapReduce用法简介

    Map-Reduce部分:Map-Reduce相当于关系型数据库中的group by,主要用于统计数据之用.MongoDB提供的Map-Reduce非常灵活,对于大规模数据分析也相当实用. 语法 db ...

  6. MongoDB:MapReduce基础及实例

    背景 MapReduce是个非常灵活和强大的数据聚合工具.它的好处是可以把一个聚合任务分解为多个小的任务,分配到多服务器上并行处理. MongoDB也提供了MapReduce,当然查询语肯定是Java ...

  7. E QUERY [main] SyntaxError: identifier starts immediately after numeric literal mongodb mapReduce 异常分析 集合命名规范

    异常信息 repl_test:PRIMARY> db.0917order_totals_b.find()2018-09-28T15:13:03.992+0800 E QUERY [main] S ...

  8. mongodb~mapreduce的实现特殊逻辑的统计

    map reduce的解释 这是一张来自mongodb-mapreduce图示,比较能说明问题

  9. MongoDB MapReduce 的示例。

    // JavaScript source code db.runCommand({ mapreduce: "page", map: function Map() { emit( t ...

随机推荐

  1. ORCLE 服务器下 in、instr、like的速度比较

    情景一(百万级数据):有一个表 (JG_COLLECT_FORM_QGZYXFPHFWJGJC1 ) 有数据条数 :1177472 条   结果:330542条 1.in: SELECT count( ...

  2. Android内存管理(7)在AS中查看内存和cpu情况

    Memory and CPU monitor Android Studio provides a memory and CPU monitor view so you can more easily ...

  3. [转]mysql触发器的作用及语法

    转自:http://blog.csdn.net/cloudday/article/details/6905590 触发器是一种特殊的存储过程,它在插入,删除或修改特定表中的数据时触发执行,它比数据库本 ...

  4. [转]linux grep命令

    转自:http://www.cnblogs.com/end/archive/2012/02/21/2360965.html 1.作用Linux系统中grep命令是一种强大的文本搜索工具,它能使用正则表 ...

  5. java基础之吃货联盟

    因为用的是普通数组,所以编写的代码可能比较长,而且有的功能还比较不健全,代码如下: 0.定义数组(因为用static修饰可以不用New,比较方便,但可能比较损耗性能) //订餐人名字 static S ...

  6. Task.Run 和 Task.Factory.StartNew

    在.Net 4中,Task.Factory.StartNew是启动一个新Task的首选方法.它有很多重载方法,使它在具体使用当中可以非常灵活,通过设置可选参数,可以传递任意状态,取消任务继续执行,甚至 ...

  7. Unity学习-预制(四)

    预制即克隆 比如要模拟一个下雨的场景,天下掉下来一颗一颗的雨滴.如果此时,我们给每一个雨滴创建一个对象的话,那会很浪费资源,而且也没必要,因为所有的雨滴是相同的.这个时候就使用到了预制,一种可以被重复 ...

  8. CSS——精灵图与背景图片定位

    精灵图产生背景: 1.网页上的每张图像都需要向服务器发送一次请求才能展现给用户.2.网页上的图像过多时,服务器就会频繁地接受和发送请求,大大降低页面的加载速度.为了有效地减少服务器接受和发送请求的次数 ...

  9. Python三方库xlrd,xlwd-Excel读写

    恩,我是翻译汪,主要内容来自http://www.python-excel.org/ 在xlrd,xlwt这两个库中,Excel的结构表示为workbook整个Excel对象,sheet工作表,row ...

  10. [ECharts]"echarts/config" is not exists

    今天在给Echarts折线图中的数据点增加点击事件的时候总是出现一个 Uncaught Error: [MODULE_MISS]"echarts/config" is not ex ...