MongoDB 聚合操作(转)

在MongoDB中，有两种方式计算聚合：Pipeline 和 MapReduce。Pipeline查询速度快于MapReduce，但是MapReduce的强大之处在于能够在多台Server上并行执行复杂的聚合逻辑。MongoDB不允许Pipeline的单个聚合操作占用过多的系统内存，如果一个聚合操作消耗20%以上的内存，那么MongoDB直接停止操作，并向客户端输出错误消息。

一，使用 Pipeline 方式计算聚合

Pipeline 方式使用db.collection.aggregate()函数进行聚合运算，运算速度较快，操作简单，但是，Pipeline方式有两个限制：单个聚合操作消耗的内存不能超过20%，聚合操作返回的结果集必须限制在16MB以内。

创建示例数据，在集合 foo中插入1000条doc，每个doc中有三个field：idx，name 和 age。

for(i=0;i<10000;i++)

{

  db.foo.insert({"idx":i,name:"user "+i,age:i%90})；

}

1，使用$match 管道符过滤collection中doc，使符合条件的doc进入pipeline，能够减少聚合操作消耗的内存，提高聚合的效率。

db.foo.aggregate({$match:{age:{$lte:25}}})

2，使用$project 管道符，使用doc中的部分field进入下级pipeline

db.foo.aggregate(

{$match:{age:{$lte:25}}},

{$project:{age:1,idx:1,"_id":0}}

)

$project 管道符的作用是选择字段，重命名字段，派生字段。

2.1 选择字段

在$project 管道符中，field:1/0，表示选择/不选择 field；将无用的字段从pipeline中过滤掉，能够减少聚合操作对内存的消耗。

db.foo.aggregate(

{$match:{age:{$lte:25}}},

{$project:{age:1,idx:1,"_id":0}}

)

2.2 对字段重命名，产生新的字段

引用符$，格式是："$field"，表示引用doc中 field 的值，如果要引用内嵌 doc中的字段，使用 "$field1.filed2"，表示引用内嵌文档field1中的字段：field2的值。

示例，新建一个field：preIdx，其值和idx 字段的值是相同的。

db.foo.aggregate(

{$match:{age:{$lte:25}}},

{$project:{age:1,"preIdx":"$idx",idx:1,"_id":0}}

)

2.3 派生字段

在$project中，对字段进行计算，根据doc中的字段值和表达式，派生一个新的字段。

示例，preIdx是根据当前doc的idx 减1 得到的

db.foo.aggregate(

{$match:{age:{$lte:25}}},

{$project:

     {

    age:1,

    "preIdx":{$subtract:["$idx",1]},

    idx:1,

    "_id":0}

     }

)

在$project 执行算术运算的操作符：+($add)，*（$multiply），/（$divide），%（$mod），-（$subtract）。

对于字符数据，$substr:[expr,start,length]用于求子字符串；$concat：[expr1,expr2,,,exprn]，用于将表达式连接在一起；$toLower：expr 和 $toUpper：expr用于返回expr的小写或大写形式。

2.4 分组操作

使用$group将doc按照特定的字段的值进行分组，$group将分组字段的值相同的doc作为一个分组进行聚合计算。如果没有$group 管道符，那么所有doc作为一个分组。对每一个分组，都能根据业务逻辑需要计算特定的聚合值。分组操作和排序操作都是非流式的运算符，流式运算符是指：只要有新doc进入，就可以对doc进行处理，而非流式运算符是指：必须等收到所有的文档之后，才能对文档进行处理。分组运算符的处理方式是等接收到所有的doc之后，才能对doc进行分组，然后将各个分组发送给pipeline的下一个运算符进行处理。

示例，按照age进行分组，统计每个分组中的doc数量

db.foo.aggregate(

{$match:{age:{$lte:25}}},

{$project:{age:1,"preIdx":{$subtract:["$idx",1]},idx:1,"_id":0}} ,

{$group:{"_id":"$age",count:{$sum:1}}}

)

如果分组字段有多个，按照 age 和 age2 进行分组，这样做仅仅是为了演示，在实际的产品环境中，可以使用更多的字段用来分组。

db.foo.aggregate(

{$match:{age:{$lte:25}}},

{$project:{age:1,"preIdx":{$subtract:["$idx",1]},idx:1,"_id":0}} ,

{$group:{"_id":{age:"$age",age2:"$age"},count:{$sum:1}}}

)

对每个分组进行聚合运算，count字段是计算每个分组中doc的数量，idxTotal字段是计算每个分组中idx字段值的加和，idxMax字段是计算每个分组中idx字段值的最大值，idxFirst是计算每个分组中第一个idx 字段的值，不一定是最小的。

db.foo.aggregate(

{$match:{age:{$lte:25}}},

{$project:{age:1,"preIdx":{$subtract:["$idx",1]},idx:1,"_id":0}} ,

{$group:

   {

    "_id":{age:"$age",age2:"$age"},

    count:{$sum:1},

    idxTotal:{$sum:"$idx"}},

    idxMax:{$max:"$idx"},

    idxFirst:{$first:"$idx"}

   }
}

)

2.5，sort操作，limit操作和 skip操作
对聚合操作的结果进行排序，然后跳过前10个doc，取剩余结果集的前10个doc。

db.foo.aggregate(

{$match:{age:{$lte:25}}},

{$project:{age:1,"preIdx":{$subtract:["$idx",1]},idx:1,"_id":0}} ,

{$group:

   {

    "_id":{age:"$age",age2:"$age"},

    count:{$sum:1},

    idxTotal:{$sum:"$idx"}},

    idxMax:{$max:"$idx"},

    idxFirst:{$first:"$idx"}

   }

}，

{$sort:{age:-1}},

{$skip:10},

{$limit:10}

)

二，使用MapReduce 方式计算聚合
MapReduce 能够计算非常复杂的聚合逻辑，非常灵活，但是，MapReduce非常慢，不应该用于实时的数据分析中。MapReduce能够在多台Server上并行执行，每台Server只负责完成一部分wordload，最后将wordload发送到Master Server上合并，计算出最终的结果集，返回客户端。

MapReduce分为两个阶段:Map和Reduce，举个例子说明，有10节车厢，统计这10节车厢中男生和女生的数量。串行方式一节一节车厢的统计，直到统计完全部车厢中的人数：男50人，女40人。

使用MapReduce方式的思路是：每个车厢派一个人去统计，每个人返回一个doc，例如，keyN：{female：num1，male：num2}，keyN是车厢编号，在同一时间，有10个人在同时工作，每个人只完成全部workload的10%，很快，返回10个doc，从Key1到Key10，只需要将这10个doc中 femal 和 male分别加和到一起，就是全部车厢的人数：男50人，女40人。

使用MapReduce方式计算聚合，主要分为三步：Map，Shuffle（拼凑）和Reduce，Map和Reduce需要显式定义，shuffle由MongoDB来实现。

Map：将操作映射到每个doc，产生Key和Value，例如，Map一个doc，产生(female，{count：1})，female是Key，value是{count：1}
Shuffle：按照Key进行分组，并将key相同的Value组合成数组，例如，产生(female,[{count:1},{count:1},{count:1},{count:1},,,,,])
Reduce：把Value数组化简为单值，例如，产生(femal，{count：21})

使用MapReduce进行聚合运算的最佳方式是聚合运算的结果能够加到一起，例如，求最大值/最小值，sum，平均值（转换为计算每台Server的总和sum1，sum2，，，sumN 与 num1，num2，，numN，平均值avg=（sum1+sum2+，，，+sumN）/（num1+num2+，，+numN））等。

示例，使用MapReduce模拟Count，统计集合中的doc的数量

step1，定义Map函数和reduce函数

对于每个doc，直接返回key 和一个doc：{count:1}

map=function (){

for(var key in this)

{

  emit(key,{count:1});

}

}

reduce=function (key,emits){

total=0;

for(var i in emits){

  total+=emits[i].count;

}

return {"count":total};

}

step2，执行MapReduce运算
在集合 foo上执行MapReduce运算，返回mr 对象

mr=db.runCommand(

{

"mapreduce":"foo",

"map":map,

"reduce":reduce,

out:"Count Doc"

})

step3，查看MapReduce计算的结果

db[mr.result].find()

示例2，统计集合foo中不同age的数量

step1，定义Map 和 Reduce函数

Map函数的作用是对每个doc进行一次映射，返回age 和 {count：1}；

经过Shuffle，每个age都有一个列表：[{count:1},{count:1},{count:1},{count:1},,,,,]，有多少个不同的age，MongoDB都会调用多少次Reduce函数，每次调用时，Key值是不同的。

Reduce函数的作用：对MongoDB的一次调用，对age对应的列表进行聚合运算。

map=function ()

{

emit(this.age,{count:1});

}

reduce= function (key,emits)

{

total=0;

for(var i in emits)

{

   total+=emits[i].count;

}

return {"age":key,count:total};

}

step2，执行MapReduce聚合运算

mr=db.runCommand(

{

"mapreduce":"foo",

"map":map,

"reduce":reduce,

out:"Count Doc"

})

step3，查看聚合运算的结果

db[mr.result].find()

示例3，研究reduce函数的特性

reduce函数具有累加的特性，通过多次调用，能够产生最终的累加值，例如，以下reduce函数对于任意一个特定的key，reduce都能计算key的数量

reduce= function (key,emits)

{

total=0;

for(var i in emits)

{

   total+=emits[i].count;

}

return {"key":key,count:total};

}

调用示例：传递的Key是相同的，都是“x”，每个emits都是一个数组，反复调用reduce函数，最终获得key的累加值。

r1=reduce("x",[{count:1},{count:2}])

r2=reduce("x",[{count:3},{count:5}])

r3=reduce("x",[r1,r2])

MongoDB 聚合操作(转)的更多相关文章

MongoDB 聚合操作
在MongoDB中,有两种方式计算聚合:Pipeline 和 MapReduce.Pipeline查询速度快于MapReduce,但是MapReduce的强大之处在于能够在多台Server上并行执行复 ...
mongodb聚合操作
1. mongodb的聚合是什么聚合(aggregate)是基于数据处理的聚合管道,每个文档通过一个由多个阶段(stage)组成的管道,可以对每个阶段的管道进行分组.过滤等功能,然后经过一系列的处理 ...
mongodb聚合查询-aggregate
Mongodb-aggregate 在工作中经常遇到一些mongodb的聚合操作,和mysql对比起来,mongo存储的可以是复杂的类型,比如数组,字典等mysql不善于处理的文档型结构,但是mong ...
MongoDB学习笔记——聚合操作之聚合管道（Aggregation Pipeline）
MongoDB聚合管道使用聚合管道可以对集合中的文档进行变换和组合. 管道是由一个个功能节点组成的,这些节点用管道操作符来进行表示.聚合管道以一个集合中的所有文档作为开始,然后这些文档从一个操作节点 ...
MongoDB 基本操作和聚合操作
一 . MongoDB 基本操作基本操作可以简单分为查询.插入.更新.删除. 1 文档查询作用 MySQL SQL MongoDB 所有记录 SELECT * FROM users; db ...
Yii2的mongodb的聚合操作
最近项目使用到mongodb的聚合操作,但是yii文档中对这方面资料较少,记录下 $where['created_time'] = ['$gt' => "$start_date_str ...
MongoDB中的聚合操作
根据MongoDB的文档描述,在MongoDB的聚合操作中,有以下五个聚合命令. 其中,count.distinct和group会提供很基本的功能,至于其他的高级聚合功能(sum.average.ma ...
MongoDB的聚合操作以及与Python的交互
上一篇主要介绍了MongoDB的基本操作,包括创建.插入.保存.更新和查询等,链接为MongoDB基本操作. 在本文中主要介绍MongoDB的聚合以及与Python的交互. MongoDB聚合什么是 ...
MongoDB入门---聚合操作&管道操作符&索引的使用
经过前段时间的学习呢,我们对MongoDB有了一个大概的了解,接下来就要开始使用稍稍深入一点的东西了,首先呢,就是MongoDB中的聚合函数,跟mysql中的count等函数差不多.话不多说哈,我们先 ...

随机推荐

jquery attr方法和prop方法获取input的checked属性问题
jquery attr方法和prop方法获取input的checked属性问题问题:经常使用jQuery插件的attr方法获取checked属性值,获取的值的大小为未定义,此时可以用prop方法 ...
外部函数/external
定义在moodle/lib/externallib.php 概观外部函数API允许您创建可由外部程序(如Web服务API)访问的完全参数化的方法. 外部函数位于externallib.php文件中. ...
Java 并发编程整体介绍 | 内含超多干货
前段时间一直在学习多线程相关的知识,目前也算有了一个整体的认识,今天呢,主要从整体介绍一下,只谈造火箭,拧螺丝这种细节还需要自己深究. 首先是操作系统级别对于多线程的支持,由 CPU 的多级缓存.缓存 ...
html/css实现阴影蒙版覆盖原网页并显示浮框的功能
在提供用户修改资料/密码等功能的时候,往往希望给用户这样的使用体验,在不跳转,不弹框的情况下完成对这些功能的操作. 这可以通过一种效果来实现,在同一页面下阴影覆盖整个当前网页并使得原网页中元素无法使用 ...
bzoj4709: [Jsoi2011]柠檬斜率优化
题目链接 bzoj4709: [Jsoi2011]柠檬题解斜率优化设 $f[i]$ 表示前 $i$个数分成若干段的最大总价值. 对于分成的每一段,左端点的数.右端点的数.选择的数一定是相 ...
BZOJ.4245.[ONTAK2015]OR-XOR(贪心)
题目链接从高到低位贪心,判断答案的该位能否为0. 求一个前缀和sum.对于最高位,答案的这一位可以为0当且仅当至少存在m个位置满足sum[i]在这一位上为0. 注意sum[n]这一位必须为0. 如果 ...
CAD画图技巧经验
1.CAD中如何输入特殊符号 %% d ——绘制“℃”符号.例如: 98.6 ℃—— 98.6 %% dC : %% c ——绘制圆直径“φ”符号.例如:φ 30 ——%% c30 : %% p —— ...
在linux上安装tomcat
(1)主要参考https://jingyan.baidu.com/article/3065b3b6e0fad2becff8a419.html(这个看后基本知道怎么安装tomcat) 其次参考:http ...
cvc-complex-type.2.4.a: Invalid content was found starting with element 'property'. One of '{"http:// www.springframework.org/schema/beans":import, "http:// www.springframework.org/schema/beans":a
因为property并未被<bean class="">标签包围, 所以要用bean标签包围即可
vs2010中关于HTML控件与服务器控件分别和js函数混合使用的问题
此文档解决以下问题: 1.在.cs文件中如何访问html控件? 在html控件中添加属性runat="server"即可 2.在html控件中,如何调用js函数? 在html控件中 ...

MongoDB 聚合操作(转)

MongoDB 聚合操作(转)的更多相关文章

随机推荐

热门专题