3.7.4 MapReduce

MapReduce 是整个大数据的精髓所在(实际中别用,因为在MongoDB中属于最底层操作)。

MapReduce是一种计算模型,简单的说就是将大批量的工作分解执行,然后再将结果合并成最终结果。

MapReduce 就是分为两步处理数据:

  • Map:将数据分别取出
  • Reduce:负责数据的最后的处理

范例:建立一组雇员数据

db.emps.insert({"name": "张三", "age": , "sex": "男", "job": "CLERK", "salary": });
db.emps.insert({"name": "李四", "age": , "sex": "女", "job": "CLERK", "salary": });
db.emps.insert({"name": "王五", "age": , "sex": "男", "job": "MANAGER", "salary": });
db.emps.insert({"name": "赵六", "age": , "sex": "女", "job": "MANAGER", "salary": });
db.emps.insert({"name": "孙七", "age": , "sex": "男", "job": "CLERK", "salary": });
db.emps.insert({"name": "王八", "age": , "sex": "女", "job": "PRESIDENT", "salary": });

范例:按照职位分组,取得每个职位的人名

第一步:编写分组的定义(即Map函数):

    var jobMapFun = function(){

      emit(this.job, this.name);   //emit()函数表示每行数据按照job分组,取出name

    }; 

分析:

  • Map函数调用emit(key, value),遍历emps中所有的记录,将key与value传递给Reduce函数进行处理,
  • Map函数必须调用emit(key, value)返回的键值对。
  • emit()函数是按数据的分组走,比如第一组:{key : "CLERK", values : [姓名, 姓名,...]}

第二步:编写 reduce 操作:

    var jobReduceFun = function(key, values){

      return {"job": key, "names": values};

    }  

分析:reduce统计函数,reduce函数的任务是将key-values变为key-value,也就是把values数组变为一个单一的值value。

第三步:进行操作的整合:

db.runCommand({
"mapreduce": "emps",
"map": jobMapFun,
"reduce": jobReduceFun,
"out": "t_job_emp"
});

分析:out:统计结果存放集合(不指定则使用临时集合,在客户端断开后自动删除)

执行后所有结果都保存在"t_job_emp"集合里面。

或者将上面第三步换成如下第三步和第四步

第三步:针对MapReduce处理完成的数据实际上也可以执行一个最后的处理

var jobFinalizeFun = function(key, values){
if(key == "PRESIDENT"){
return {"job": key, "names": values, "info": "公司的老大"};
}
return {"job": key, "names": values};
}

第四步:进行操作的整合

db.runCommand({
"mapreduce": "emps",
"map": jobMapFun,
"reduce": jobReduceFun,
"out": "t_job_emp",
"finalize": jobFinalizeFun
});

现在执行之后,所有的处理结果都保存在 “t_job_emp” 集合里面,通过如下命令查看

db.t_job_emp.find()

范例:统计出性别的人数、平均工资、最低工资、雇员姓名。

var sexMapFun = function(){
  // 定义好了分组的条件,以及每个集合要取出的内容
  emit(this.sex, {"ccount" : , "csal" : this.salary, "cmax" : this.salary, "cmin" : this.salary, "cname" : this.name})
}
var sexReduceFun = function(key, values){
  var total = ;  //统计
  var sum = ;  //计算总工资
  var max = values[].cmax;  //假设第一个数据是最高工资
  var min = values[].cmin;  //假设第一个数据是最低工资
  for (var x in values){      // 表示循环取出里面的数据
    total += values[x].ccount;  //人数增加
    sum += values[x].csal;    //就可以循环取出所有的工资,并且累加
    if (max < values[x].cmax){  //不是最高工资
      max = values[x].cmax;
    }
    if (min > values[x].cmin){  //不是最低工资
      min = values[x].cmin;
    }
    names[x] = values[x].cname  //保存姓名
  }
  var avg = (sum / total).toFixed();  //toFixed(2)设置成两位小数
  //返回数据的处理结果
  return {"count" : total, "avg" : avg, "sum" : sum, "max" : max, "min" : min, "names" : names};
}
db.runCommand({
  "mapreduce" : "emps",
  "map" : sexMapFun,
  "reduce" : sexReduceFun,
  "out" : "t_sex_emp"
})

现在执行之后,所有的处理结果都保存在“t_sex_emp”集合里面,通过如下命令查看:

db.t_sex_emp.find()

MongoDB(课时29 MapReduce)的更多相关文章

  1. 【转载】MongoDB中的MapReduce 高级操作介绍

    转载自残缺的孤独 1.概述 MongoDB中的MapReduce相当于关系数据库中的group by.使用MapReduce要实现两个函数Map和Reduce函数.Map函数调用emit(key,va ...

  2. MongoDB中的MapReduce介绍与使用

    一.简介 在用MongoDB查询返回的数据量很大的情况下,做一些比较复杂的统计和聚合操作做花费的时间很长的时候,可以用MongoDB中的MapReduce进行实现 MapReduce是个非常灵活和强大 ...

  3. 基于MongoDB分布式存储进行MapReduce并行查询

    中介绍了如何基于Mongodb进行关系型数据的分布式存储,有了存储就会牵扯到查询.虽然用普通的方式也可以进行查询,但今天要介绍的是如何使用MONGODB中提供的MapReduce功能进行查询.     ...

  4. MongoDB中通过MapReduce实现合计Sum功能及返回格式不一致问题分析

    建立下述测试数据,通过MapReduce统计每个班级学生数及成绩和. 代码如下: public string SumStudentScore() { var collection = _dataBas ...

  5. MongoDB整理笔记のMapReduce

    MongDB的MapReduce相当于MySQL中的“group by”,所以在MongoDB上使用Map/Reduce进行并行“统计”很容易. 使用MapReduce要实现两个函数Map函数和Red ...

  6. MongoDB (课时1,2)

    1.数据库之中支持的的SQL语句是由IBM开发出来的,使用并不麻烦,就是几个简单的单词:select, from, where,  group by, having, order by.目前最流行的数 ...

  7. 面向对象程序设计-C++_课时28静态对象_课时29静态成员

    Static in C++ Two basic meanings Static Storage --allocated once at a fixed address Visibility of a ...

  8. mongoDB(3) mapReduce

    mapReduce是大数据的核心内容,但实际操作中别用这个,所谓的mapReduce分两步 1.map:将数据分别取出,Map函数调用emit(key,value)遍历集合中所有的记录,将key与va ...

  9. mongodb学习3---mongo的MapReduce

    1,概述MapReduce是个非常灵活和强大的数据聚合工具.它的好处是可以把一个聚合任务分解为多个小的任务,分配到多服务器上并行处理.MongoDB也提供了MapReduce,当然查询语肯定是Java ...

随机推荐

  1. [LeetCode] 310. Minimum Height Trees_Medium tag: BFS

    For a undirected graph with tree characteristics, we can choose any node as the root. The result gra ...

  2. [LeetCode] 122. Best Time to Buy and Sell Stock II_Easy tag: Dynamic Programming

    Say you have an array for which the ith element is the price of a given stock on day i. Design an al ...

  3. c++多态特性总结

    将父类比喻为电脑的外设接口,子类比喻为外设,现在我有移动硬盘.U盘以及MP3,它们3个都是可以作为存储但是也各不相同.如果我在写驱动的时候,我用个父类表示外设接口,然后在子类中重写父类那个读取设备的虚 ...

  4. MVC增加操作日志

    在后台管理中,有一些操作是需要增加操作日志的,尤其是对一些比较敏感的金额类的操作,比如商城类的修改商品金额.删除商品.赠送金额等人工的操作.日志中记录着相关操作人的操作信息,这样,出了问题也容易排查. ...

  5. OpenCV Mat数据类型及位数总结(转载)

    OpenCV Mat数据类型及位数总结(转载) 前言 opencv中很多数据结构为了达到內存使用的最优化,通常都会用它最小上限的空间来分配变量,有的数据结构也会因为图像文件格式的关系而给予适当的变量, ...

  6. dxf cad dwg 文件读写,支持跨平台移植 库

    http://www.pudn.com/Download/item/id/3096684.html 联合开发网 --->绘图程序

  7. canvas实现验证码功能

    我们在做一些后台系统登录功能的时候,一般都会用到验证码,最多的就是后台生成的验证码图片返回给前端的.也可以不调用后端接口,前端使用canvas直接生成验证码. 由于功能过于简单,不需要多少代码和文字说 ...

  8. EOJ Monthly 2018.11 猜价格 (模拟)

    分三种情况: 1.k=1.此时每次都说反话,反着二分即可. 2.1<k <= n.那么在前n次问答中一定会出现一次错误,通过不断输出1找出那个错误发生的位置(若回答是>那这就是错误) ...

  9. zw版【转发·台湾nvp系列Delphi例程】HALCON SmallestRectangle2

    zw版[转发·台湾nvp系列Delphi例程]HALCON SmallestRectangle2 procedure TForm1.Button1Click(Sender: TObject);var ...

  10. 填格子3*N的方框使用2*1的矩形进行填充

    考虑每个位置的前一个状态 可以发现有 我们分别给他们编号 假设 现在填充到了i+1行,我们可以发现从i行可以通过填充转到i+1行的状态 第i行第j列表示 可以 从上一个转态 j 可以到达这个状态的j ...