MongoDB MapReduce（转）

MapReduce
MapReduce是一种计算模型，简单的说就是将大批量的工作（数据）分解（MAP）执行，然后再将结果合并成最终结果（REDUCE）。这样做的好处是可以在任务被分解后，可以通过大量机器进行并行计算，减少整个操作的时间。
对科班出生的程序员来说，最好的例子莫过于归并排序的例子，没错，归并排序流程就可以看作是一个MapReduce，只是我们在学校写过的归并排序程序可能还没有涉及到并行计算罢了。
上面是MapReduce的理论部分，下面说实际的应用，下面以MongoDB MapReduce为例说明。
下面是MongoDB官方的一个例子：

, tags : ['dog', 'cat'] } );
, tags : ['cat'] } );
, tags : ['mouse', 'cat', 'dog'] } );
, tags : [] } );
> // map function
> m = function(){
... this.tags.forEach(
... function(z){
} );
... }
... );
...};
> // reduce function
> r = function( key , values ){
;
; i<values.length; i++ )
... total += values[i].count;
... return { count : total };
...};
> res = db.things.mapReduce(m, r, { out : "myoutput" } );
> res
{
"result" : "myoutput",
,
"counts" : {
,
,
},
,
}
> db.myoutput.find()
}}
}}
}}
> db.myoutput.drop()

例子很简单，计算一个标签系统中每个标签出现的次数。
这里面，除了emit函数之外，所有都是标准的js语法，当然你也可以使用你所知道的所有标准js函数。而这个emit函数是非常重要的，他的作用是将一条数据放入数据分组集合，这个分组是以emit的第一个参数为key的。你可以这样理解，当你在所有需要计算的行执行完了map函数，你就得到了一组key-values对。基本key是emit中的key，values是每次emit函数的第二个参数组成的集合。
现在我们的任务就是将这一个key-values变在key-value，也就是把这一个集合变成一个单一的值。这个操作就是Reduce。
好像这里和我们前面的理论是完全一样的，其实不然。当我们的key-values中的values集合过大，会被再切分成很多个小的key-values块，然后分别执行Reduce函数，再将多个块的结果组合成一个新的集合，作为Reduce函数的第二个参数，继续Reducer操作。可以预见，如果我们初始的values非常大，可能还会对第一次分块计算后组成的集合再次Reduce。这就类似于多阶的归并排序了。具体会有多少重，就看数据量了。
上面这一内部机制，我们不必非常了解，但我们必须了解这一机制会要求我们遵守的原则，那就是当我们书写Map函数时，emit的第二个参数形式是我们的Reduce函数的第二个参数，而Reduce函数的返回值，可能会作为新的输入参数再次执行Reduce操作，所以Reduce函数的返回值也需要和Reduce函数的第二个参数结构一致。
作为结束，下面照本宣科说一下MongoDB MapReduce调用参数和返回结果。
参数表如下：

db.runCommand(
{ mapreduce :
,
map :
,
reduce :
[, query : ]
[, sort : ]
[, limit : ]
[, out : ]
[, keeptemp:
]
[, finalize : ]
[, scope : ]
[, verbose : true]
}
);
mapreduce：指定要进行mapreduce处理的collection
map：map函数
reduce：reduce函数
query：一个筛选条件，只有满足条件的行才会加入mapreduce集合，而这个筛选过程是先于整个mapreduce流程而执行的
sort：和query结合的sort排序参数，这是唯一可以优化分组机制的地方
limit：同上
out：结果输出的collection的名字，不指定会默认创建一个随机名字的collection
keytemp：true或false，表明结果输出到的collection是否是临时的，如果为true，则会在客户端连接中断后自动删除，如果你用的是MongoDB的mongo客户端连接，那必须exit后才会删除。如果是脚本执行，脚本退出或调用close会自动删除结果collection
finalize：和map，reduce一样是一个函数，它可以在reduce得出一个结果后再对key和value进行一次计算并返回一个最终结果
scope：设置参数值，在这里设置的值在map，reduce，finalize函数中可见
verbose：在执行过程中打印调试信息。
返回结果结构如下：
{ result :
,
counts : {
input : ,
emit : ,
output :
} ,
timeMillis : ,
ok : <1_if_ok>,
[, err : ]
}
result：储存结果的collection的名字
input：满足条件的数据行数
emit：emit调用次数，也就是所有集合中的数据总量
ouput：返回结果条数
timeMillis：执行时间，毫秒为单位
err：如果失败，这里可以有失败原因，不过从经验上来看，原因比较模糊，作用不大

再加一个例子：

//插入一组数据
,atima:new Date().getTime() };db.users.insert(u);}
//map function
m=function(){emit(this.name,{total:this.age,lasttime:this.atima})}
//reduce function，key对应的maxtime最新的时间
;values.forEach(function(v){sum+=v.total;if(v.lasttime>maxtime)maxtime=v.lasttime;}); return {total:sum,lasttime:maxtime};}
//运行，结果输入到result集合里
db.runCommand({mapreduce:'users',map:m,reduce:r,out:'result'});
db.result.find();

MongoDB MapReduce（转）的更多相关文章

mongodb mapreduce使用总结
文章来自本人个人博客: mongodb mapreduce使用总结大家都知道,mongodb是一个非关系型数据库.也就是说.mongodb数据库中的每张表是独立存在的,表与表之间没有不论什么依赖 ...
[MongoDB]mapReduce
摘要上篇文章介绍了count,group,distinct几个简单的聚合操作,其中,group比较麻烦一点.本篇文章将学习mapReduce的相关内容. 相关文章 [MongoDB]入门操作 [Mo ...
MongoDB MapReduce学习笔记
http://cnodejs.org/topic/51a8a9ed555d34c67831fb8b http://garyli.iteye.com/blog/2079158 MapReduce应该算是 ...
用C#感受MongoDB MapReduce之魅力转
MapReduce这个名词随着hadoop的用户的增多,越来越被人关注.MapReduce可谓MongoDB之中的亮点,我也想深入了解MapReduce,加上MongoDB操作简单,所以就选择了它.M ...
MongoDB MapReduce用法简介
Map-Reduce部分:Map-Reduce相当于关系型数据库中的group by,主要用于统计数据之用.MongoDB提供的Map-Reduce非常灵活,对于大规模数据分析也相当实用. 语法 db ...
MongoDB:MapReduce基础及实例
背景 MapReduce是个非常灵活和强大的数据聚合工具.它的好处是可以把一个聚合任务分解为多个小的任务,分配到多服务器上并行处理. MongoDB也提供了MapReduce,当然查询语肯定是Java ...
E QUERY [main] SyntaxError: identifier starts immediately after numeric literal mongodb mapReduce 异常分析集合命名规范
异常信息 repl_test:PRIMARY> db.0917order_totals_b.find()2018-09-28T15:13:03.992+0800 E QUERY [main] S ...
mongodb~mapreduce的实现特殊逻辑的统计
map reduce的解释这是一张来自mongodb-mapreduce图示,比较能说明问题
MongoDB MapReduce 的示例。
// JavaScript source code db.runCommand({ mapreduce: "page", map: function Map() { emit( t ...

随机推荐

VC++编译MPIR 2.7.0
目录第1章编译 2 1.1 简介 2 1.2 下载 3 1.3 解决方案 4 1.4 创建项目 5 1.5 复制文件树 6 1.6 不使用预编译头文件 8 ...
JUnit org.junit.runner.Request.classWithoutSuiteMethod解决方法
欢迎和大家交流技术相关问题: 邮箱: jiangxinnju@163.com 博客园地址: http://www.cnblogs.com/jiangxinnju GitHub地址: https://g ...
5.3.1 新建Java工程和类
1.新建工程 (1)打开Eclipse,选择工作区域 (2)选择“File”->“New”->“Java Project”命令,新建工程. (3)在弹出的新建工程对话框中,输入Projec ...
Ubuntu安装nodeJS
安装环境 ubuntu12.04 64bit nodejs-v0.8.14.tar.gz Node.js是一个基于google v8+javascript的服务端编程框架.但是Node.js又不是js ...
python2 安装scrapy问题解决方法
错误代码: build/temp.linux-x86_64-:: fatal error: openssl/opensslv.h: 没有那个文件或目录 compilation terminated. ...
angular-ui-router状态不变刷新页面
需求: 当前在A页面状态,要求在点击A状态时,可以刷新A状态. 解决方法:在ui-sref状态切换的标签中添加属性 ui-sref-opts="{reload: true}" ...
arguments的基本用法
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
WPF:linq
/// <summary> /// 该药品是否存在发药信息 /// 存在返回true,否则返回false /// </summary> /// <param name=& ...
MYSQL的三种注释
#CREATE SCHEMA `paw-jj` DEFAULT CHARACTER SET utf8 ; -- select * from vrv_paw_terminalinfo /* selec ...
Web总结
Web总结学习web前端理论基础必然是要过关的,这里我总结了一下比较基础的常用理论,还是比较有用哒! 一.名词解释 1.横切在固定页面的宽度(按栅格化进行)并且对高度没有限制的容器称为一个标准横切 ...

MongoDB MapReduce（转）

MongoDB MapReduce（转）的更多相关文章

随机推荐

热门专题