MongoDB下Map-Reduce使用简单翻译及示例
Map-reduce是一种数据处理范例,用于将大量数据压缩为有用的聚合结果。 对于map-reduce操作,MongoDB提供了mapReduce数据库命令。
一个简单的map-reduce
示例如下:
在此map-reduce
操作中,MongoDB将映射(map)
操作应用于每个输入文档(即集合中与查询条件匹配的文档)。map函数提交(emit)一个键值对(key-value)。对于具有多个值的key钥,MongoDB应用reduce
操作,该操作用于聚合数据。然后MongoDB将结果存储在一个集合
中。reduce函数的输出还可以选择通过finalize
函数以进一步压缩或处理聚合的结果。
MongoDB中的所有map-reduce函数都是JavaScript,并在mongod进程中运行。 Map-reduce操作将单个集合的文档作为输入,并可在开始映射阶段之前执行任意排序和限制。 mapReduce可以将map-reduce操作的结果作为文档返回,也可以将结果写入集合。 输入和输出集合可以分片。
对于大多数聚合操作,聚合管道( Aggregation Pipeline)[https://docs.mongodb.com/manual/core/aggregation-pipeline/]提供更好的性能和更一致的接口。 但是,map-reduce操作提供了一些目前在聚合管道中不可用的灵活性。
Map-Reduce JavaScript 函数
在MongoDB中,map-reduce操作使用自定义JavaScript函数将值(value)映射或关联到键(key)。 如果某个键(key)有对应多个值(value),则该操作应该将键的值reduces
为单个对象。
使用自定义JavaScript函数可以灵活地进行map-reduce操作。 例如,在处理文档时,map函数可以创建多个键和值映射或不进行映射。 Map-reduce操作还可以使用自定义JavaScript函数对映射的结果进行最终修改,并在映射操作的最后阶段进行reduce操作,执行其他计算。
Map-Reduce 行为
在MongoDB中,map-reduce操作可以将结果写入集合或返回结果内联。 如果将map-reduce输出写入集合,则可以在合并替换,合并或减少新结果与先前结果的同一输入集合上执行后续map-reduce操作。 有关详细信息和示例,请参阅mapReduce和Perform Incremental(执行增量) Map-Reduce。
当返回map-reduce操作的内联结果时,结果文档必须在BSON文档大小限制内,该限制当前为16兆字节。 有关map-reduce操作的限制和限制的其他信息,请参阅mapReduce参考页面。
MongoDB支持分片集合上的map-reduce操作。 Map-reduce操作还可以将结果输出到分片集合。 请参见Map-Reduce and Sharded Collections。
Views(视图)不支持map-reduce操作。
一个简单的测试
MongoDB地理空间数据存储及检索
上面链接是之前曾经做过一个全国县级行政边界矢量入库到MongoDB的记录,这里用它来测试一下。
简单的测试一下全国每个省都有多少个县
db.getCollection('xzbj').mapReduce(
function() { emit(this.properties.sheng,1);},
function(key,values){return Array.sum(values);},
{
query:{},
out:"xian_count"
}
)
这里将结果输出到了xian_count
这个新的集合中,可以打开这个集合查看结果。
上面的query
也可以没有,就是默认集合内全部文档。
如果不想把结果输出到一个集合,直接显示结果,则可以使用out: { inline: 1 }
。
计算一下湖南省每个地级市有多少个县
使用下面语句
db.getCollection('xzbj').mapReduce(
function() { emit(this.properties.di,1);},
function(key,values){return Array.sum(values);},
{
query:{ 'properties.sheng':'湖南'},
out: { inline: 1 }
}
)
得到输出如下(这里如果是针对全国的数据是有问题的,因为之前没有正确处理港澳台数据):
{
"results" : [
{
"_id" : "娄底市",
"value" : 5.0
},
{
"_id" : "岳阳市",
"value" : 7.0
},
{
"_id" : "常德市",
"value" : 9.0
},
{
"_id" : "张家界市",
"value" : 3.0
},
{
"_id" : "怀化市",
"value" : 12.0
},
{
"_id" : "株洲市",
"value" : 6.0
},
{
"_id" : "永州市",
"value" : 10.0
},
{
"_id" : "湘潭市",
"value" : 4.0
},
{
"_id" : "湘西土家族苗族自治州",
"value" : 8.0
},
{
"_id" : "益阳市",
"value" : 6.0
},
{
"_id" : "衡阳市",
"value" : 8.0
},
{
"_id" : "邵阳市",
"value" : 11.0
},
{
"_id" : "郴州市",
"value" : 11.0
},
{
"_id" : "长沙市",
"value" : 5.0
}
],
"timeMillis" : 19.0,
"counts" : {
"input" : 105,
"emit" : 105,
"reduce" : 14,
"output" : 14
},
"ok" : 1.0,
"_o" : {
"results" : [
{
"_id" : "娄底市",
"value" : 5.0
},
{
"_id" : "岳阳市",
"value" : 7.0
},
{
"_id" : "常德市",
"value" : 9.0
},
{
"_id" : "张家界市",
"value" : 3.0
},
{
"_id" : "怀化市",
"value" : 12.0
},
{
"_id" : "株洲市",
"value" : 6.0
},
{
"_id" : "永州市",
"value" : 10.0
},
{
"_id" : "湘潭市",
"value" : 4.0
},
{
"_id" : "湘西土家族苗族自治州",
"value" : 8.0
},
{
"_id" : "益阳市",
"value" : 6.0
},
{
"_id" : "衡阳市",
"value" : 8.0
},
{
"_id" : "邵阳市",
"value" : 11.0
},
{
"_id" : "郴州市",
"value" : 11.0
},
{
"_id" : "长沙市",
"value" : 5.0
}
],
"timeMillis" : 19,
"counts" : {
"input" : 105,
"emit" : 105,
"reduce" : 14,
"output" : 14
},
"ok" : 1.0
},
"_keys" : [
"results",
"timeMillis",
"counts",
"ok"
],
"_db" : {
"_mongo" : {
"slaveOk" : true,
"host" : "127.0.0.1:27017",
"defaultDB" : "test",
"_readMode" : "commands"
},
"_name" : "us"
}
}
MongoDB下Map-Reduce使用简单翻译及示例的更多相关文章
- map/reduce类简单介绍
在Hadoop的mapper类中,有4个主要的函数,分别是:setup,clearup,map,run.代码如下: protected void setup(Context context) thro ...
- 入门大数据---Map/Reduce,Yarn是什么?
简单概括:Map/Reduce是分布式离线处理的一个框架. Yarn是Map/Reduce中的一个资源管理器. 一.图形说明下Map/Reduce结构: 官方示意图: 另外还可以参考这个: 流程介绍: ...
- MongoDB Map Reduce(转载)
MongoDB Map Reduce Map-Reduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE). MongoDB提供的Map ...
- 记一次MongoDB Map&Reduce入门操作
需求说明 用Map&Reduce计算几个班级中,每个班级10岁和20岁之间学生的数量: 需求分析 学生表的字段: db.students.insert({classid:1, age:14, ...
- ODPS 下一个map / reduce 准备
阿里接到一个电话说练习和比赛智能二选一, 真的很伤心, 练习之前积极老龄化的权利. 要总结ODPS下一个 写map / reduce 并进行购买预测过程. 首先这里的hadoop输入输出都是表的形式, ...
- mongodb Map/reduce测试代码
private void AccountInfo() { ls.Clear(); DateTime dt = DateTime.Now.Date; IMongoQuery query = Query& ...
- 分布式基础学习(2)分布式计算系统(Map/Reduce)
二. 分布式计算(Map/Reduce) 分 布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按Google Map/Reduce框架所设计的分布式框架.在Hadoop中,分布式文件 系统,很 ...
- 分布式基础学习【二】 —— 分布式计算系统(Map/Reduce)
二. 分布式计算(Map/Reduce) 分布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按Google Map/Reduce框架所设计的分布式框架.在Hadoop中,分布式文件系统,很大程 ...
- 数据库-mongodb-聚合与map reduce
分组统计:group() 简单聚合:aggregate() 强大统计:mapReduce() Group函数: 1.不支持集群.分片,无法分布式计算 2.需要手写聚合函数的业务逻辑 curr指当前行, ...
随机推荐
- git checkout 撤销多个文件,撤销整个文件夹
git checkout 撤销多个文件,撤销整个文件夹 git checkout <folder-name>/ git checkout -- <folder-name> 这样 ...
- css3 的新属性
1,动画,animate------>//动画-名称-动画的时间间隔-以什么方式播放-循环 .right{ animate:dropdown 4px 5px #000; // x的偏移值 y的偏 ...
- Django的请求生命周期
Django的请求生命周期 请求生命周期 请求生命周期是指当用户在浏览器上输入url到用户看到网页的这个时间段内,Django后台所发生的事情. 1.客户端发送Http请求 2 .服务器接收,根据请求 ...
- SpringMVC(十一) RequestMapping获取Cookie值
可以在控制器方法中使用类似@CookieValue("JSESSIONID") String sessionID的方式,来获取请求中的Cookie的值. 样例控制器代码 packa ...
- Django模板语言的复用
一.include标签 由于在项目中,往往会出现多个页面拥有一个或几个相同的页面版块,或是一个页面多个页面版块是相同的,基于这个问题,我们可以采用模板语言复用include标签来帮我们解决,这样就避免 ...
- id生成器,分布式ID自增算法(Snowflake 算法)
接口: /** * id生成器 */ public interface IdGenerator { String next(); } 实现类: /** * 分布式ID自增算法<br/> * ...
- [mongoDB]PyMongo Cursor Not Found Error
Python跑一个aggregate脚本,报错:pymongo.errors.CursorNotFound: Cursor not found, cursor id: 35411720832 搜了下原 ...
- BZOJ.3631.[JLOI2014]松鼠的新家(树上差分)
题目链接 树剖/差分裸题.. //28260kb 584ms #include <cstdio> #include <cctype> #include <algorith ...
- Linux——awk命令解析
awk简介 awk其名称得自于它的创始人 Alfred Aho .Peter Weinberger 和 Brian Kernighan 姓氏的首个字母.实际上 AWK 的确拥有自己的语言: AWK 程 ...
- React Native小白入门学习路径——一
前言 过去这段时间一直忙着实验室考核任务,拼尽全力完成了自己的任务之后.正准备开始高强度的实验室的学习的时候,实验室组织了新老生交流会,这也应该是头一次这么近距离的面对大四前辈交流想法.感觉自己受益颇 ...