MongoDB学习笔记——聚合操作之MapReduce
MapReduce
MongoDB中的MapReduce相当于关系数据库中的group by。使用MapReduce要实现两个函数Map和Reduce函数。Map函数调用emit(key,value),遍历 Collection中所有的记录,将key与value传递给Reduce函数进行处理。 Mapreduce使用惯用的javascript操作来做map和reduce操作,因此Mapreduce的灵活性和复杂性都会比aggregate 更高一些,并且相对aggregate 而言更消耗性能;
语法格式:
db.runCommand(
{
mapReduce: <collection>,
map: <function>,
reduce: <function>,
finalize: <function>,
out: <output>,
query: <document>,
sort: <document>,
limit: <number>,
scope: <document>,
jsMode: <boolean>,
verbose: <boolean>
}
)
等同于语法
db.collection.mapReduce(
<map>,
<reduce>,
{
out: <collection>,
query: <document>,
sort: <document>,
limit: <number>,
finalize: <function>,
scope: <document>,
jsMode: <boolean>,
verbose: <boolean>
})
参数说明:
- mapReduce:要操作的目标集合
- map:映射函数 (生成键值对序列,作为 reduce 函数参数), Map方法使用this来操作当前对象,至少调用一次 emit(key, value)方法向reduce提供参数。其中的key为最终结果集中的_id
- reduce:统计函数,该函数接受map函数传来的key和value值。reduce函数中的key就是emit(key,value)中的key,而value是emit函数中同一个key返回的value数组。
- query:一个筛选条件,只有满足条件的文档才会调用map函数。(query。limit,sort可以随意组合)
- sort : 和limit结合的sort排序参数(也是在发往map函数前给文档排序),可以优化分组机制,提升mapreduce性能,
处理未排序的集合意味着MapReduce引擎将得到随机顺序的值,在RAM中根本无法reduce。相反,它将不得不把所有文章写入一个临时收集的磁盘,然后按顺序读取并reduce。 - limit: 发往map函数的文档数量的上限(要是没有limit,单独使用sort的用处不大)
- finalize: 最终处理函数(对reduce返回结果进行最终整理后存入结果集合) finalize函数可能会在Reduce函数结束之后运行,这个函数是可选的,对于很多Map/Reduce任务来说不是必需的。finalize函数接收一个key和一个value,返回一个最终的value. 针对一个对象你的Reduce函数可能被调用了多次。当最后只需针对一个对象进行一次操作时可以使用finalize函数,比如计算平均值。
- scope:向map、reduce、finalize导入外部变量
- verbose : 指定是否在结果信息中包含的计时信息,默认true
- jsMode: 布尔值,是否减少执行过程中BSON和JS的转换,默认false 对于MongoDB2.0及以上的版本,通常Map/Reduce的执行遵循下面两个步骤: a.从BSON转化为JSON,执行Map过程,将JSON转化为BOSN b.从BSON转化为JSON,执行Reduce过程,将JSON转化为BSON 因此,需要多次转化格式,但是可以利用临时集合在Map阶段处理很大的数据集。为了节省时间,可以利用{jsMode:ture}使Map/Reduce的执行保持在JSON状态。遵循如下两个步骤: a.从BSON转化为JSON,执行Map过程 b.执行Reduce过程,从 JSON转化为BSON 这样,执行时间可以大大减小,但需要注意,jsMode 受到JSON堆大小和独立主键最大500KB的限制。因此,对于较大的任务jsMode并不适用,在这种情况下会转变为通常的模式。
- out:统计结果存放集合 (必填),
在MongoDB1.8之前的版本,如果你没有指定out的值,那么结果将会被放到一个临时集合中,集合的名字在输出指令中指定,否则,你可以指定一个集合的名字作为out的选项,而结果将会被存储到你指定的集合中。
对于MongoDB1.8以及以后的版本,输出选项改变了。Map/Reduce 不再产生临时集合,你必须为out指定一个值,设置out指令如下:out参数格式:
out: { <action>: <collectionName>
[, db: <dbName>]
[, sharded: <boolean> ]
[, nonAtomic: <boolean> ] }
out参数说明
- Action可以为 replace(默认)、merge、reduce {replace:"collectionName"}:输出结果将被插入到一个集合中,并且会自动替换掉现有的同名集合。该选项为默认的。 {merge:"collectionName"}:这个选项将会把新的数据连接到旧的输出结合中。换句话说,如果在结果集和旧集合中存在相同键值,那么新的键将会被覆盖掉。 {reduce:"collectionName"}:如果具有某个键值的文档同时存在于结果集和旧集合中,那么一个Reduce操作(利用特定的reduce函数)将作用于这个两个值,并且结果将会被写到输出集合中。如果指定了finalize函数,那么当Reduce结束后它将被执行。
- db: 指明接收输出结果的数据库名称 out:{replace:"collectionName",db:"otherDB"}
- shard: {shared:true}:适用于MongoDB1.9及以上的版本。如果设置为true,并且设置了数据库分片,那么输出的collection将被进行分片,并选择_id作为其片键。
MapReduce执行聚合的步骤
- 1.执行query操作,针对想要聚合的集合进行数据筛选,只有满足条件的文档才会被继续执行
- 2.执行sort操作,对满足条件的数据进行排序,可以优化分组的机制,通常与limit一起使用
- 3.执行limit操作,对已经排序的数据进行过滤,筛选出能够执行map函数的文档上限,(要是没有limit,单独使用sort的用处不大)
- 4.执行map操作,通过变量this来检验当前考察的对象,调用 emit(key, value)生成键值对序列,作为 reduce 函数参数
- 5.执行reduce操作,处理需要统计的字段
- 6.执行finalize操作,对reduce的结果执行finalize方法进行处理
- 7.执行out操作,将结果集进行输出
- 8.断开连接,临时Collection删除或保留。
编写MapReduce程序
所有的map-reduce函数都是用JavaScript书写,然后在mongod实例进程上运行。在进行map-reduce操作的时候,MongoDB会将满足查询条件的文档进行map所定义的操作,map函数会产生( emit)键值型的数据。
如果某个键所对应的值有多个的话,会进行reduce的操作,最后将结果保存到一个集合中。通过定义一个finalize函数可以对reduce的结果做进一步的处理,比如:进行投影或者规范化输出、进一步的计算等。
当我们的key-values中的values集合过大,会被再切分成很多个小的key-values块,然后分别执行Reduce函数,再将多个块的结果组合成一个新的集合,作为Reduce函数的第二个参数,继续Reducer操作。可以预见,如果我们初始的values非常大,可能还会对第一次分块计算后组成的集合再次Reduce。这就类似于多阶的归并排序了。具体会有多少重,就看数据量了。
上面这一内部机制,我们不必非常了解,但我们必须了解这一机制会要求我们遵守的原则,那就是当我们书写Map函数时,emit的第二个参数形式是我们的Reduce函数的第二个参数,而Reduce函数的返回值,可能会作为新的输入参数再次执行Reduce操作,所以Reduce函数的返回值也需要和Reduce函数的第二个参数结构一致
首先在order集合中插入测试数据
db.order.insert([{
"_id": ObjectId("528312e716b20807b2152db5"),
"cust_id": "1",
"ord_date": ISODate("2013-11-13T16:00:00Z"),
"status": "A",
"price": 25,
"items": [
{
"sku": "mmm",
"qty": 5,
"price": 2.5
},
{
"sku": "nnn",
"qty": 5,
"price": 2.5
}
]
},{
"_id": ObjectId("528312f716b20807b2152db6"),
"cust_id": "2",
"ord_date": ISODate("2013-11-13T16:00:00Z"),
"status": "A",
"price": 25,
"items": [
{
"sku": "mmm",
"qty": 5,
"price": 2.5
},
{
"sku": "nnn",
"qty": 5,
"price": 2.5
}
]
},{
"_id": ObjectId("5283130816b20807b2152db7"),
"cust_id": "3",
"ord_date": ISODate("2013-11-13T16:00:00Z"),
"status": "A",
"price": 25,
"items": [
{
"sku": "mmm",
"qty": 5,
"price": 2.5
},
{
"sku": "nnn",
"qty": 5,
"price": 2.5
}
]
},{
"_id": ObjectId("5283132c16b20807b2152db8"),
"cust_id": "3",
"ord_date": ISODate("2013-11-13T16:00:00Z"),
"status": "A",
"price": 30,
"items": [
{
"sku": "mmm",
"qty": 6,
"price": 2.5
},
{
"sku": "nnn",
"qty": 6,
"price": 2.5
}
]
},{
"_id": ObjectId("5283134d16b20807b2152db9"),
"cust_id": "2",
"ord_date": ISODate("2013-11-13T16:00:00Z"),
"status": "A",
"price": 20,
"items": [
{
"sku": "mmm",
"qty": 4,
"price": 2.5
},
{
"sku": "nnn",
"qty": 4,
"price": 2.5
}
]
}])
统计每个顾客的消费总金额
var mapFunc = function () {
emit(this.cust_id, this.price);
}
var reduceFunc = function (key, values) {
return Array.sum(values);
}
db.order.mapReduce(mapFunc, reduceFunc, { out: 'ordermapreduce' })
统计每种商品的购买次数和平均每次购买数量
var mapFunc = function () {
for (var i = 0; i < this.items.length; i++) {
var key = this.items[i].sku;
var value = { count: 1, qty: this.items[i].qty }
emit(key, value);
}
};
var reduceFunc = function (key, values) {
var result = { count: 0, qty: 0 };
for (var i = 0; i < values.length; i++) {
result.count += values[0].count;
result.qty += values[0].qty;
}
return result;
}
var finalizeFunc = function (key, reduceVal) {
reduceVal.avg = reduceVal.qty / reduceVal.count;
return reduceVal;
};
db.order.mapReduce(mapFunc, reduceFunc, { out: { merge: "ordermapreduce1" }, finalize: finalizeFunc });
MongoDB学习笔记——聚合操作之MapReduce的更多相关文章
- MongoDB学习笔记——聚合操作之聚合管道(Aggregation Pipeline)
MongoDB聚合管道 使用聚合管道可以对集合中的文档进行变换和组合. 管道是由一个个功能节点组成的,这些节点用管道操作符来进行表示.聚合管道以一个集合中的所有文档作为开始,然后这些文档从一个操作节点 ...
- MongoDB学习笔记——聚合操作之group,distinct,count
单独的聚合命令(group,distinct,count) 单独聚合命令 比aggregate性能低,比Map-reduce灵活度低:但是可以节省几行javascript代码,后面那句话我自己加的,哈 ...
- MongoDB学习笔记:Python 操作MongoDB
MongoDB学习笔记:Python 操作MongoDB Pymongo 安装 安装pymongopip install pymongoPyMongo是驱动程序,使python程序能够使用Mong ...
- MongoDB学习笔记(数据操作)
1. 批量插入: 以数组的方式一次插入多个文档可以在单次TCP请求中完成,避免了多次请求中的额外开销.就数据传输量而言,批量插入的数据中仅包含一份消息头,而多次单条插入则会在每次插入数据时封 ...
- MongoDB学习笔记——数据库操作
使用use数据库名称来创建数据库,如果该数据库已经存在则返回这个数据库 语句格式:use DATABASE_NAME >use mynewdb switched to db mynewdb 使用 ...
- MongoDB 学习笔记(python操作)
转自: http://blog.csdn.net/daillo/article/details/7030910
- mongoDB 学习笔记纯干货(mongoose、增删改查、聚合、索引、连接、备份与恢复、监控等等)
最后更新时间:2017-07-13 11:10:49 原始文章链接:http://www.lovebxm.com/2017/07/13/mongodb_primer/ MongoDB - 简介 官网: ...
- PHP操作MongoDB学习笔记
<?php/*** PHP操作MongoDB学习笔记*///*************************//** 连接MongoDB数据库 **////*************** ...
- 【转】mongoDB 学习笔记纯干货(mongoose、增删改查、聚合、索引、连接、备份与恢复、监控等等)
mongoDB 学习笔记纯干货(mongoose.增删改查.聚合.索引.连接.备份与恢复.监控等等) http://www.cnblogs.com/bxm0927/p/7159556.html
随机推荐
- 数据库收缩:NOTRUNCATE与TRUNCATEONLY
在进行数据库收缩时,我们有2个可用选项:NOTRUNCATE,TRUNCATEONLY.这篇文章我们会详细讨论下这2个选项的具体区别. NOTRUNCATE 当你对数据库收缩命令提供NOTRUNCAT ...
- dock基本使用
通过Docker源安装最新版本通过Docker源安装最新版本 要安装最新的 Docker 版本,首先需要安装 apt-transport-https 支持,之后通过添加源来安装.要安装最新的 Dock ...
- chrome开发者工具浅析--timeline
一.概述 ...
- C#方法的重载和方法的可变参数
方法的重载 1.方法重载的前提:方法名称必须一样 2.构成重载的条件:参数不一样(参数数量不一样,参数类型不一样) 方法的可变参数 1.可变参数的值的数量可以是0到多个. 2.可变参数调用的时候,没有 ...
- 在aspx怎么引用public string getPicurl(string picurl)?
刚才在论坛上看到一帖: Insus.NET尝试做了一下,直接使用一个Img标签是无法实现.因为函数中返回的即是一个img html标签,因此在aspx页再不能使用Img了. 现在可以回到网友的问题,那 ...
- MVC bundle(包扎)CSS或是JS文件
以前写asp.net网页时,会在<head>节点中引用很多样式文件或是javascript文件,如下图左大括号的引用语句. 现在在MVC应用程序中,可以使用使用Bundle来捆一起, 在S ...
- Java集合框架之Collection接口
Java是一门面向对象的语言,那么我们写程序的时候最经常操作的便是对象了,为此,Java提供了一些专门用来处理对象的类库,这些类库的集合我们称之为集合框架.Java集合工具包位于Java.util包下 ...
- Linux Shell系列教程之(十三)Shell分支语句case … esac教程
本文是Linux Shell系列教程的第(十三)篇,更多Linux Shell教程请看:Linux Shell系列教程 分支语句非常实用,基本上高级语言都支持分支语句(python 没有),大多数都使 ...
- Orchard中文版源码下载
本版本基于Orchard1.7.2修改: 新增Bootstrap主题 新增中文语言包 增加了对Sqlite.Orchard数据库的支持 优化工程,减少临时符号生成,增加工程效率 和一些BUG的修正 默 ...
- 关于网络上的各种mysql性能测试结论
关于网上的各种性能测试帖子,我想说以下几点: 1.为了使性能测试更加的客观.实际,应该说明针对什么场景进行测试,查询.还是修改,是否包含了主键,包含了几个索引,各自的差别是什么.因为不同的mysql分 ...