简述MapReduce计算框架原理

1. MapReduce基本编程模型和框架

1.1 MapReduce抽象模型

大数据计算的核心思想是：分而治之。如下图所示。把大量的数据划分开来，分配给各个子任务来完成。再将结果合并到一起输出。注：如果数据的耦合性很高，不能分离，那么这种并行计算就不合适了。

图1： MapReduce抽象模型

1.2 Hadoop的MapReduce的并行编程模型

如下图2所示，Hadoop的MapReduce先将数据划分为多个key/value键值对。然后输入Map框架来得到新的key/value对，这时候只是中间结果，这个时候的value值是个集合。再通过同步屏障(为了等待所有的Map处理完)，这个阶段会把相同key的值收集整理(Aggregation&Shuffle)在一起，再交给Reduce框架做输出组合，如图2中每个Map输出的结果，有K1，K2，K3，通过同步屏障后，K2收集到一起，K2收集到一起，K3收集到一起，再分别交给Reduce，通过Reduce组合结果。

图2：Hadoop的MapReduce的框架

1.3 Hadoop的MapReduce的完整编程模和框架

图3是MapReduce的完整编程模型和框架，比模型上多加入了Combiner和Partitioner。

Combiner
Combiner可以理解为一个小的Reduce，就是把每个Map结果，先做一次整合。例如图3中第三列的Map结果中有2个good，通过Combiner之后，先将本地的2个goods组合到了一起（红色的（good，2））。好处是大大减少需要传输的中间结果数量，达到网络数据传输优化，这也是Combiner的主要作用。
Partitioner
为了保证所有的主键相同的key值对能传输给同一个Reduce节点，如图3中所有的good传给第一个Reduce前，所有的is和has传给第二个Reduce前，所有的weather，the和today传到第三个Reduce前。MapReduce专门提供了一个Partitioner类来完成这个工作，主要目的就是消除数据传入的Reduce节点后带来不必要的相关性。

图3：Hadoop的MapReduce的完整编程模型和框架

简述MapReduce计算框架原理

简述MapReduce计算框架原理的更多相关文章

使用mapreduce计算环比的实例
最近做了一个小的mapreduce程序,主要目的是计算环比值最高的前5名,本来打算使用spark计算,可是本人目前spark还只是简单看了下,因此就先改用mapreduce计算了,今天和大家分享下这个 ...
MapReduce计算模型
MapReduce计算模型 MapReduce两个重要角色:JobTracker和TaskTracker. MapReduce Job 每个任务初始化一个Job,没个Job划分为两个阶段:Map和 ...
MapReduce——计算温度最大值（基于全新2.2.0API）
MapReduce——计算温度最大值 (基于全新2.2.0API) deprecated: Job类的所有Constructors, 新的API用静态方法getInstance(conf)来去的Job ...
MapReduce计算模型的优化
MapReduce 计算模型的优化涉及了方方面面的内容,但是主要集中在两个方面:一是计算性能方面的优化:二是I/O操作方面的优化.这其中,又包含六个方面的内容. 1.任务调度任务调度是Hadoop中 ...
（第4篇）hadoop之魂--mapreduce计算框架，让收集的数据产生价值
摘要: 通过前面的学习,大家已经了解了HDFS文件系统.有了数据,下一步就要分析计算这些数据,产生价值.接下来我们介绍Mapreduce计算框架,学习数据是怎样被利用的. 博主福利给大家赠送一套ha ...
组合式MapReduce计算作业
1)迭代MapReduce计算任务,就是在一个循环内多次执行一个MapReduce. 2)顺序组合式MapReduce作业的执行 MapReduce1—>MapReduce2—>MapRe ...
MapReduce计算每年最大值测试样例生成程序
Demo.java package com.java; import java.io.BufferedWriter; import java.io.File; import java.io.FileW ...
Hadoop—MapReduce计算气象温度
Hadoop-MapReduce计算气象温度 1 运行环境说明 1.1 硬软件环境主机操作系统:Mac OS 64 bit ,8G内存虚拟软件:Parallers Desktop12 虚拟机操作系 ...
MapReduce计算模型二
之前写过关于Hadoop方面的MapReduce框架的文章MapReduce框架Hadoop应用(一) 介绍了MapReduce的模型和Hadoop下的MapReduce框架,此文章将进一步介绍map ...

随机推荐

BZOJ2006 [NOI2010]超级钢琴【堆 + RMQ】
2006: [NOI2010]超级钢琴 Time Limit: 20 Sec Memory Limit: 552 MB Submit: 3446 Solved: 1692 [Submit][Sta ...
String作为输出型参数时获取不到值
有时候在一个方法中,我们需要返回多个字符串,而又不想将这些字段包成一个类.此时就需要使用输出型参数. 但是如果将输出型参数的类型声明为String,那么调用该方法后,是获取不到我们想要的值的. 测试代 ...
Fiddler进行模拟POST、PUT提交数据注意点
1.请求头要加 Accept: application/xml Content-Type: application/json 2.地址栏url地址后不要忘记加“/” 3.POST和PUT的对象参数都是 ...
mysql 数据库备份与还原，用户的创建与删除，用户的密码修改
1.备份数据库要退出mysql rimideiMac-23:~ rimi$ mysqldump -u root -p pro >pro.sql ls 查看路径 2.恢复数据库 2.1直接 ...
20155335俞昆《java程序设计》第十周总结
学号 2016-2017-2 <Java程序设计>第十周学习总结 ## 事实上网络编程,我们可以简单的理解为两台计算机相互通讯数据而已,对于程序员而言,掌握一种编程接口并使用一种编程模型相 ...
max_element和min_element的用法
首先,max_element和min_elemetn看字面意思是求最大值和最小值,这个确实是这个意思.不过,需要注意的是,他返回的是最大值(最小值)的地址,而非最大值(最小值).对于一般数组的用法则是 ...
Angular2.0 基础: User Input
1.Angular 2.0 中的变量对输入值的获取,我们可以通过$event 来获取,也可以通过变量来获取. template: ` <input (keyup)="onKey($e ...
常见网络命令之traceroute命令一起其他常用命令
备注:任何命令+/?就可以显示命令帮助,比如:ipconfig /?. traceroute命令 traceroute是UNIX系统中的名字,用来跟踪一个分组从源点到终点的路径.在Windows系统中 ...
win10远程桌面配置
Win10连接远程桌面的时候提示您的凭证不工作该怎么办? http://www.cnblogs.com/zhuimengle/p/6048128.html 二.服务器端 1.依旧进入组策略,不过是在服 ...
centos_7.1.1503_src_3
http://vault.centos.org/7.1.1503/os/Source/SPackages/ kdf-4.10.5-3.el7.src.rpm 05-Jul-2014 13:28 161 ...

简述MapReduce计算框架原理

1. MapReduce基本编程模型和框架

1.1 MapReduce抽象模型

1.2 Hadoop的MapReduce的并行编程模型

1.3 Hadoop的MapReduce的完整编程模和框架

简述MapReduce计算框架原理的更多相关文章

随机推荐

热门专题