MongoDB中的聚合操作
根据MongoDB的文档描述,在MongoDB的聚合操作中,有以下五个聚合命令。
其中,count、distinct和group会提供很基本的功能,至于其他的高级聚合功能(sum、average、max、min),就需要通过mapReduce来实现了。
在MongoDB2.2版本以后,引入了新的聚合框架(聚合管道,aggregation pipeline ,使用aggregate命令),是一种基于管道概念的数据聚合操作。
|
Name |
Description |
|
count |
Counts the number of documents in a collection. |
|
distinct |
Displays the distinct values found for a specified key in a collection. |
|
group |
Groups documents in a collection by the specified key and performs simple aggregation. |
|
mapReduce |
Performs map-reduce aggregation for large data sets. |
|
aggregate |
Performs aggregation tasks such as group using the aggregation framework. |
下面就开始对这些聚合操作进行介绍,所有的测试数据都是基于上一篇文章。
count
首先,我们看下MongoDB文档中,count命令可以支持的选项:
{ count: <collection>, query: <query>, limit: <limit>, skip: <skip>, hint: <hint> }
- count:要执行count的collection
- query(optional):过滤条件
- limit(optional):查询匹配文档数量的上限
- skip(optional):跳过匹配文档的数量
- hint(optional):使用那个索引
例子:查看男学生的数量
> db.runCommand({"count":"school.students", "query":{"gender":"Male"}})
{ "n" : , "ok" : }
>
在MongoDB中,对count操作有一层包装,所以也可以通过shell直接运行db."collectionName".count()。
但是为了保持风格一致,我还是倾向于使用db.runCommand()的方式。
distinct
接下来看看distinct命令,下面列出可以支持的选项:
{ distinct: "<collection>", key: "<field>", query: <query> }
- distinct:要执行distinct的collection
- key:要执行distinct的键
- query(optional):过滤条件
例子:查看所有学生年龄的不同值
> db.runCommand({"distinct":"school.students","key":"age"})
{
"values" : [
,
,
,
,
],
"stats" : {
"n" : ,
"nscanned" : ,
"nscannedObjects" : ,
"timems" : ,
"cursor" : "BtreeCursor age_1"
},
"ok" :
}
group
group命令相比前两就稍微复杂了一些。
{
group:
{
ns: <namespace>,
key: <key>,
$reduce: <reduce function>,
initial:
$keyf: <key function>,
cond: <query>,
finalize: <finalize function>
}
}
- ns:要执行group的collection
- key:要执行group的键,可以是多个键;和keyf两者必须有一个
- $reduce:在group操作中要执行的聚合function,该function包括两个参数,当前文档和聚合结果文档
- initial:reduce中使用变量的初始化
- $keyf(optional):可以接受一个function,用来动态的确定分组文档的字段
- cond(optional):过滤条件
- finalize(optional):在reduce执行完成,结果集返回之前对结果集最终执行的函数
例子:统计不同年龄、性别分组的学生数量
> db.runCommand({
... "group":{
... "ns":"school.students",
... "key":{"age":true, "gender":true},
... "initial":{"count":},
... "$reduce": function(cur, result){ result.count++;},
... "cond":{"age":{"$lte":}}
... }
... })
{
"retval" : [
{
"age" : ,
"gender" : "Female",
"count" :
},
{
"age" : ,
"gender" : "Male",
"count" :
},
{
"age" : ,
"gender" : "Male",
"count" :
},
{
"age" : ,
"gender" : "Female",
"count" :
}
],
"count" : ,
"keys" : ,
"ok" :
}
>
通过finalize选项,可以在结果返回之前进行一些自定义设置。
> db.runCommand({
... "group":{
... "ns":"school.students",
... "key":{"age":true, "gender":true},
... "initial":{"count":},
... "$reduce": function(cur, result){
... result.count++;
... },
... "cond":{"age":{"$lte":}},
... "finalize": function(result){
... result.percentage = result.count/;
... delete result.count;
... }
... }
... })
{
"retval" : [
{
"age" : ,
"gender" : "Female",
"percentage" : 0.2
},
{
"age" : ,
"gender" : "Male",
"percentage" : 0.1
},
{
"age" : ,
"gender" : "Male",
"percentage" : 0.2
},
{
"age" : ,
"gender" : "Female",
"percentage" : 0.1
}
],
"count" : ,
"keys" : ,
"ok" :
}
>
mapReduce
前面三个聚合操作提供了最基本的功能,如果要用到更加复杂的聚合操作,我们就需要自己通过mapReduce来实现了。
mapReduce更重要的用法是实现多个服务器上的聚合操作。
根据MongoDB文档,得到mapReduce的原型如下:
{
mapReduce: <collection>,
map: <function>,
reduce: <function>,
out: <output>,
query(optional): <document>,
sort(optional): <document>,
limit(optional): <number>,
finalize(optional): <function>,
scope(optional): <document>,
jsMode(optional): <boolean>,
verbose(optional): <boolean>
}
- mapReduce:要执行map-reduce操作的collection
- map:map function,生成键/值对,可以理解为映射函数
- reduce:reduce function,对map的结果进行统计,可以理解为统计函数
- out:统计结果存放集合 (不指定则使用临时集合,在客户端断开后自动删除)
- query:过滤条件
- sort:排序条件
- limit:map函数可以接受的文档数量的最大值
- finalize:在reduce执行完成后,结果集返回之前对结果集最终执行的函数
- scope:向 map、reduce、finalize 导入外部变量
- jsMode:设置是否把map和reduce的中间数据转换成BSON格式
- verbose:设置是否显示详细的时间统计信息
注意:map、reduce和finalize的函数实现都有特定的要求,具体的要求请参考MongoDB文档
例子:
查询男生和女生的最大年龄
> db.runCommand({
... "mapReduce": "school.students",
... "map": function(){
... emit({gender: this.gender}, this.age);
... },
... "reduce": function(key, values){
... var max = ;
... for(var i = ; i < values.length; i++)
... max = max>values[i]?max:values[i];
... return max;
... },
... "out": {inline: },
...
... })
{
"results" : [
{
"_id" : {
"gender" : "Female"
},
"value" :
},
{
"_id" : {
"gender" : "Male"
},
"value" :
}
],
"timeMillis" : ,
"counts" : {
"input" : ,
"emit" : ,
"reduce" : ,
"output" :
},
"ok" :
}
>
分别得到男生和女生的平均年龄
> db.runCommand({
... "mapReduce": "school.students",
... "map": function(){
... emit({gender: this.gender}, this.age);
... },
... "reduce": function(key, values){
... var result = {"total": , "count": };
... for(var i = ; i < values.length; i++)
... result.total += values[i];
... result.count = values.length;
... return result;
... },
... "out": {inline: },
... "finalize": function(key, reducedValues){
... return reducedValues.total/reducedValues.count;
... }
... })
{
"results" : [
{
"_id" : {
"gender" : "Female"
},
"value" :
},
{
"_id" : {
"gender" : "Male"
},
"value" : 21.8
}
],
"timeMillis" : ,
"counts" : {
"input" : ,
"emit" : ,
"reduce" : ,
"output" :
},
"ok" :
}
>
小技巧:关于自定义js函数
在MongoDB中,可以通过db.system.js.save命令(其中system.js是一个存放js函数的collections)来创建并保存JavaScript函数,这样在就可以在MongoDB shell中重用这些函数。
比如,下面两个函数是网上网友实现的
|
SUM |
db.system.js.save( { _id : "Sum" , value : function(key,values) { var total = 0; for(var i = 0; i < values.length; i++) total += values[i]; return total; }}); |
|
AVERAGE |
db.system.js.save( { _id : "Avg" , value : function(key,values) { var total = Sum(key,values); var mean = total/values.length; return mean; }}); |
通过利用上面两个函数,我们的"分别得到男生和女生的平均年龄"例子就可以通过以下方式实现。
这个例子中,我们还特殊设置了"out"选项,把返回值存入了"average_age"这个collection中。
> db.runCommand({
... "mapReduce": "school.students",
... "map": function(){
... emit({gender: this.gender}, this.age);
... },
... "reduce": function(key, values){
... avg = Avg(key, values);
... return avg;
... },
... "out": {"merge": "average_age"}
... })
{
"result" : "average_age",
"timeMillis" : ,
"counts" : {
"input" : ,
"emit" : ,
"reduce" : ,
"output" :
},
"ok" :
}
>
通过以下命令,我们可以看到新增的collection,并且查看里面的内容。
> show collections
average_age
school.students
system.indexes
system.js
>
> db.average_age.find()
{ "_id" : { "gender" : "Female" }, "value" : }
{ "_id" : { "gender" : "Male" }, "value" : 21.8 }
>
> db.system.js.find()
{ "_id" : "Sum", "value" : function (key,values)
{
var total = ;
for(var i = ; i < values.length; i++)
total += values[i];
return total;
} }
{ "_id" : "Avg", "value" : function (key,values)
{
var total = Sum(key,values);
var mean = total/values.length;
return mean;
} }
>
总结
通过这篇文章,介绍了MongoDB中count、distinct、group和mapReduce的基本使用。没有一次把所有的聚合操作都看完,聚合管道只能放在下一次了。
Ps: 文章中使用的例子可以通过以下链接查看
http://files.cnblogs.com/wilber2013/aggregation.js
MongoDB中的聚合操作的更多相关文章
- 在MongoDB中实现聚合函数
在MongoDB中实现聚合函数 随着组织产生的数据爆炸性增长,从GB到TB,从TB到PB,传统的数据库已经无法通过垂直扩展来管理如此之大数据.传统方法存储和处理数据的成本将会随着数据量增长而显著增加. ...
- MongoDB学习笔记——聚合操作之MapReduce
MapReduce MongoDB中的MapReduce相当于关系数据库中的group by.使用MapReduce要实现两个函数Map和Reduce函数.Map函数调用emit(key,value) ...
- 在MongoDB中使用JOIN操作
SQL与NoSQL最大的不同之一就是不支持JOIN,在传统的数据库中,SQL JOIN子句允许你使用普通的字段,在两个或者是更多表中的组合表中的每行数据.例如,如果你有表books和publisher ...
- 在MongoDB中实现聚合函数 (转)
随着组织产生的数据爆炸性增长,从GB到TB,从TB到PB,传统的数据库已经无法通过垂直扩展来管理如此之大数据.传统方法存储和处理数据的成本将会随着数据量增长而显著增加.这使得很多组织都在寻找一种经济的 ...
- MongoDB 基本操作和聚合操作
一 . MongoDB 基本操作 基本操作可以简单分为查询.插入.更新.删除. 1 文档查询 作用 MySQL SQL MongoDB 所有记录 SELECT * FROM users; db ...
- Numpy 中的聚合操作
# 导包 import numpy as np sum np.random.seed(10) L = np.random.random(100) sum(L) np.sum(L) min np.min ...
- mongodb 数据库中 的聚合操作
- MongoDB学习笔记——聚合操作之聚合管道(Aggregation Pipeline)
MongoDB聚合管道 使用聚合管道可以对集合中的文档进行变换和组合. 管道是由一个个功能节点组成的,这些节点用管道操作符来进行表示.聚合管道以一个集合中的所有文档作为开始,然后这些文档从一个操作节点 ...
- MongoDB学习笔记——聚合操作之group,distinct,count
单独的聚合命令(group,distinct,count) 单独聚合命令 比aggregate性能低,比Map-reduce灵活度低:但是可以节省几行javascript代码,后面那句话我自己加的,哈 ...
随机推荐
- 【jquery】jquery 实现许愿墙效果,可拖拽
最近整理做过的项目,发现有个许愿墙的效果,今天拿出来给大家分享下. 先简单的介绍下功能点: 随机显示背景图或背景色 出现的位置随机 可以通过拖拽改变位置 好了,附上代码: <!doctype h ...
- windows10激活工具,绿色无毒,不改浏览器主页
最近发现一个很好用的Windows10 永久激活的工具,比KMS什么的管用,而且无毒无公害.几乎支持所有的win10版本.感兴趣的朋友可以试试.之前win10没洗白的同学,也试试吧,说不定就洗白了呢. ...
- 求 pi 的近似值题型汇总
(注:暂时先记录这些问题,后期会持续更新) 一.用格雷戈里公式计算π的近似值,精度要求:最后一项的绝对值小于0.00001 1,用while循环实现 int denominator,flag; dou ...
- php 文件上传类,功能相当齐全,留作开发中备用吧。
收藏一个经典好用的php 文件上传类,功能相当齐全,留作开发中备用吧. 好东西,大家都喜欢,才是真的好,哈哈!!! <?php /** * 文件上传类 */ class upload ...
- asp.net Core EF core ( Entity Framework 7 ) 数据库更新维护
CreateDatabaseIfNotExists等之前的API已经废弃,现在采用的是微软封装好,简化.高效的API,migrations 因为,旧API,要付出高昂的代价,以及局限性 打开VS20 ...
- 制作移动端手机网站过程中的SEO优化方法技巧
据国内三大运营商数据来看,中国的手机用户数已达10亿,超过2/5的移动用户每个月都会从手机终端访问网页,如今的移动端手机网站比例肯定有提升,但是对于这些存在的移动版本网站来说,马海祥查看了很大一部分手 ...
- matlab中 %d,%f,%c,%s代表什么意思
1.%d就是输出整型:%3d就是说按照长度为3的整型输出,比如10,输出就是“_10”,“_”代表空格. 2.%f就是输出小数:%6.2f就是小数点后保留2位,输出总长度为6,比如3.14159,输出 ...
- Android从文件读取图像显示的效率问题
因为从文件读取图像到Bitmap是一件比较费时的事情,所以研究了一下几种可行的办法,并做了对比. 首先解释一下为什么耗时,这是因为,在从jpg或者png文件中读取Bitmap时,一来需要对外存进行操作 ...
- C# asp.net中导出Excel表时总出现"只能在执行 Render() 的过程中调用 RegisterForEventValidation
C# asp.net中导出Excel表时总出现"只能在执行 Render() 的过程中调用 RegisterForEventValidation 后台添加以下方法:/// <summa ...
- asp.net导出EXCEL的好方法!(好用,导出全部数据)
1.调用方法: ExportExcel("application/ms-excel", "EXCEL名称.xls", GridView1, this.Page) ...