3、MapReduce

MapReduce是一种处理海量数据的并行编程模型和计算框架，用于对大数据及的并行计算。

1、MapReduce基础

1）MapReduce处理数据集过程，如下图：

a）Map阶段：

MapReduce 框架将任务的输入分割成固定大小的片段（splits），随后将每个split进一步分解成一批键值对<K1,V1>。Hadoop为每个split创建一个Map任务用于执行用户自定义的map函数，并将对应split中的<K1,V1>对作为输入，得到计算的中间结果<K2,V2>.接着将中间结果按照K2进行排序，并将key值相同的value放在一起形成<K2,list(V2)>元组。最后再根据Key值的范围将这些元组进行分组，对应不同的Reduce任务。

b）Reduce阶段：

Reducer把从不同Mapper接收来的数据整合在一起并进行排序，然后调用用户自定义的reduce函数，对输入的<K2,list(V2)>对进行相应处理，得到键值对<K3,V3>并输出到HDFS上。 job.setNumReduceTasks（）方法设置reduce数。

2、MapReduce的集群行为

1）、任务调度与执行：有一个JobTracker和多个TaskTracker两类节点控制完成

2）、本地计算：split通常应小于或等于HDFS数据块的大小，从而保证split不会跨越两台计算机存储，便于本地计算。

3）、Shuffle过程：将Mapper的输出结果按照key值分成R份（R是设定的Reduce的个数）划分时使用哈希函数，保证某一范围内的key由某个Reduce来处理。

4）、合并Mapper输出：在Shuffle之前闲的结果进行合并（Combine过程）即将中间结果相同key值的多组<key,value>对合并成一对。可以减少中间结果数量，从而减少数据传输过程中的网络流量。

5）、读取中间结果：Mapper的输出结果被直接写到本地磁盘而非HDFS，

6）、任务管道：有时R个Reduce会产生R个结果，会将这R个结果作为另一个计算任务的输入开始两一个任务

3、Map/Reduce个数

1）Mappers的数目直接有splits来决定

2）Reducers的数目略小于reducer slots的总数

a.所有的Reducers可以并行执行，减少排队时间

b.对于未执行reducer的slots，可以在其他reducer发生故障时立即分配给新创建的reducer

3）Reducers的个数要小于Mappers的个数

3、MapReduce的更多相关文章

三、MapReduce学习
MapReducer是一种编程模型,用于大规模数据集(大于1TB)的并行运算.概念"Map(映射)"和"Reduce(化简)" ...
大数据核心知识点：Hbase、Spark、Hive、MapReduce概念理解，特点及机制
今天,上海尚学堂大数据培训班毕业的一位学生去参加易普软件公司面试,应聘的职位是大数据开发.面试官问了他10个问题,主要集中在Hbase.Spark.Hive和MapReduce上,基础概念.特点.应用 ...
第2节 mapreduce深入学习：14、mapreduce数据压缩-使用snappy进行压缩
第2节 mapreduce深入学习:14.mapreduce数据压缩-使用snappy进行压缩文件压缩有两大好处,节约磁盘空间,加速数据在网络和磁盘上的传输. 方式一:在代码中进行设置压缩代码: ...
第2节 mapreduce深入学习：7、MapReduce的规约过程combiner
第2节 mapreduce深入学习:7.MapReduce的规约过程combiner 每一个 map 都可能会产生大量的本地输出,Combiner 的作用就是对 map 端的输出先做一次合并,以减少在 ...
第2节 mapreduce深入学习：6、MapReduce当中的计数器
第2节 mapreduce深入学习:6. MapReduce当中的计数器计数器是收集作业统计信息的有效手段之一,用于质量控制或应用级统计.计数器还可辅助诊断系统故障.如果需要将日志信息传输到map ...
第1节 MapReduce入门：11、mapreduce程序的入门
1.1.理解MapReduce思想 MapReduce思想在生活中处处可见.或多或少都曾接触过这种思想.MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景). ...
【MapReduce】一、MapReduce简介与实例
(一)MapReduce介绍 1.MapReduce简介 MapReduce是Hadoop生态系统的一个重要组成部分,与分布式文件系统HDFS.分布式数据库HBase一起合称为传统Hadoop的三 ...
Hadoop 中HDFS、MapReduce体系结构
在网络环境方面,作为分布式系统,Hadoop基于TCP/IP进行节点间的通信和传输. 在数据传输方面,广泛应用HTTP实现. 在监控.通知方面,Hadoop等分布式大数据软件则广泛使用异步消息队列等机 ...
[MapReduce] Google三驾马车：GFS、MapReduce和Bigtable
声明:此文转载自博客开发团队的博客,尊重原创工作.该文适合学分布式系统之前,作为背景介绍来读. 谈到分布式系统,就不得不提Google的三驾马车:Google FS[1],MapReduce[2],B ...

随机推荐

java code to byte code--partone--reference
Understanding how Java code is compiled into byte code and executed on a Java Virtual Machine (JVM) ...
Java基础知识强化之网络编程笔记15：Android网络通信之 Android异步任务处理（AsyncTask使用）
AsyncTask,是android提供的轻量级的异步类,可以直接继承AsyncTask,在类中实现异步操作,并提供接口反馈当前异步执行的程度(可以通过接口实现UI进度更新),最后反馈执行的 ...
servlet 容器，工作原理，优缺点
转自http://blog.sina.com.cn/s/blog_b5a157500101ld71.html servlet:是以java技术为基础,应用于服务器端的程序组件,本质就是java代码,用 ...
oracle 不转义 &
在为表加注释,遇到有些注释包含'&' 但又不想写eacape, 在sqlplus下,set define off 即可将&输入到数据库中.
Sqlserver的触发器的简单使用
1,触发器有两种 (1)After触发器(之后触发) 触发器有个好处:就是你之前有过什么操作他会将你的操作的数据信息完整的保存下来,比如你删过什么信息,如果用触发器,那么删除后就会显示两行受影响,那么 ...
我的第二篇--nginx安装问题之路径问题
这几天还是一直在搭建nginx,并且要在nginx的基础之上配置naxsi(WAF防火墙)并使它生效,但是随之而来的问题也会有很多,也许因为我是个新手,所以遇到的问题要多,不解的问题也要很多,不知道又 ...
cgi表单的处理
在HTML中,当客户填写了表单,并按下了发送(submit)按钮后,表单的内容被发送到了服务器端,一般的,这时就需要有一个服务器端脚本来对表单的内容进行一些处理, 或者是把它们保存起来,或者是按内容 ...
【字符串排序，技巧！】UVa 10905 - Children’s Game
There are lots of number games for children. These games are pretty easy to play but not so easy to ...
FontAwesome 奥森图标的学习
很早之前,就看到大家在使用代码做出很漂亮的图标,但是觉得需求不是很大,所以就没有看,但是技多不压身,这次有时间来学习下. FontAwesome官方网站 1,下载文件包里面有两个文件夹,css 和 ...
asp下实现多条件模糊查询SQL语句
常写一个简单的模糊查询的SQL语句格式可以如下例: sql="select * from 表名 where 字段名 like ’%" & request.form(&quo ...

3、MapReduce

3、MapReduce的更多相关文章

随机推荐

热门专题