MapReduce过程(包括Shuffle)详解

　　首先，map的输入数据默认一个一个的键值对，键就是每一行首字母的偏移量，值就是每一行的值了。

　　然后每一个输入的键值对都会用我们定义的map函数去处理，这里用wordcount来举例的话就是，每一个键值对的值都按对应的分隔符分隔成每一个单词作为输出的键，值都为1。

　　接着，进入mapshuffle阶段，map函数处理后的数据会被放到一个环形缓冲区中，当放置的环形缓冲区的容量(默认100MB,可自定义)达到阈值(默认80%,可自定义)时就会进入溢写，

在真正溢写到本地磁盘前，会对要溢写的数据进行分区(Partitioner),这里分区的规则就是按数据输出到对应的不同的reduce进行划分的，然后对每个分区内的数据进行排序(Sort),

接下来是可优化的可选项就是分组（combiner），即先对相同的键的值进行合并，从而减少到时reduce来拉去的网络消耗和内存消耗.完成上述溢写的准备阶段后才会真正的写到磁盘。

　　而每次的溢写都会生成一个小文件，当溢写的小文件个数达到一定阈值时会再进行排序后合并成大文件。直到将所有的map输出数据处理完成，map端的shuffle过程结束。

　　接下来进入reduce端的shuffle过程，当map处理完成后，会通知ApplicationMaster（后文简称AM），AM就会启动reduce Task，reduce就会到对应的map中拉取对应的map输出结果文件，放到内存中，也跟map过程一样，进行溢写，唯一不同的是其会进行分组，也就是对相同的key进行分组，把相同key下的值进行合并后输出(这里，如果map端有进行combiner优化的话，

reduce分组的压力是不是就少很多了）。所有数据处理完后，reduce端的shuffle也就结束了。

　　reduce端的shuffle过程的结果用咱们自定义的reduce函数进行处理，用wordcount程序为例的话，其实就是对key下的list值进行累加。

　　最终作为mapreduce的输出结果。整个MapReduce过程结束。

下图以wordcount为例进行图解说明:

MapReduce过程(包括Shuffle)详解的更多相关文章

Hadoop学习之路（二十三）MapReduce中的shuffle详解
概述 1.MapReduce 中,mapper 阶段处理的数据如何传递给 reducer 阶段,是 MapReduce 框架中最关键的一个流程,这个流程就叫 Shuffle 2.Shuffle: 数 ...
MapReduce工作原理图文详解 (炼数成金)
MapReduce工作原理图文详解 1.Map-Reduce 工作机制剖析图: 1.首先,第一步,我们先编写好我们的map-reduce程序,然后在一个client 节点里面进行提交.(一般来说可以在 ...
全网最详细的PLSQL Developer + Oracle client的客户端或者 PLSQL Developer + Oracle server服务端的下载与安装过程（图文详解）
不多说,直接上干货! 环境说明: 本地没有安装Oracle服务端,oracle服务端64位,是远程连接,因此本地配置PLSQL Developer64位. Oracle database使用在本机部署 ...
VBA的过程及参数详解
VBA的过程及参数详解 VBA中的过程(Procedure)有两种,一种叫函数(Function),另外一种叫子程序(Subroutine),分别使用Function和Sub关键字.它们都是一个可以获 ...
Hadoop Mapreduce中shuffle 详解
MapReduce 里面的shuffle:描述者数据从map task 输出到reduce task 输入的这段过程 Shuffle 过程: 首先,map 输出的<key,value > ...
Spark中的Spark Shuffle详解
Shuffle简介 Shuffle描述着数据从map task输出到reduce task输入的这段过程.shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过s ...
Spark技术内幕: Shuffle详解（一）
通过上面一系列文章,我们知道在集群启动时,在Standalone模式下,Worker会向Master注册,使得Master可以感知进而管理整个集群:Master通过借助ZK,可以简单的实现HA:而应用 ...
Android中measure过程、WRAP_CONTENT详解以及 xml布局文件解析流程浅析
转自:http://www.uml.org.cn/mobiledev/201211221.asp 今天,我着重讲解下如下三个内容: measure过程 WRAP_CONTENT.MATCH_PAREN ...
Job流程：Shuffle详解
此文承接Job流程:Mapper类分析.MapReduce为确保每个reducer的输入都按键排序,数据从map输出到reducer输入的这段过程成为Shuffle. map端 1).Spill溢写. ...

随机推荐

Compare Version Numbers leetcode
Compare two version numbers version1 and version2.If version1 > version2 return 1, if version1 &l ...
长连接 Socket.IO
概念说到长连接,对应的就是短连接了.下面先说明一下长连接和短连接的区别: 短连接与长连接通俗来讲,浏览器和服务器每进行一次通信,就建立一次连接,任务结束就中断连接,即短连接.相反地,假如通信结束( ...
scanf函数之扫描集
前言 %[]是scanf函数不常用到的格式字符--扫描集(scanset),它的用法很简单,但却能巧妙地解决一些输入问题.(由于书籍里和网上对此格式字符的介绍很少且篇幅较小,本文可能会有些许错误,请读 ...
10分钟精通SharePoint - SharePoint发展历程
SharePoint 2001: SharePoint Team Service(STS) SharePoint Portal Server(SPS) SharePoint 2003: Windows ...
解决error104 connection reset by peer；socket error问题
这个问题原因有两个: 1.因为你访问网站太多次,所以被网站管理员给禁止访问了. 解决方法: 1.延长time.sleep时间 2.设置代理 2.根本没有这个网站.(打开链接检查一下!!!)
keepalived工作原理
keepalived是一个类似于Layer2,4,7交换机制的软件.是Linux集群管理中保证集群高可用的一个服务软件,其功能是用来防止单点故障. keepalived的工作原理: ...
百度推出 MIP Shell 链接
在站长将站点 MIP 化时,需要关注 URL 的一共有三个:MIP URL, MIP-Cache URL 以及 MIP-Shell URL. 从 URL 说起在互联网中,URL 定义页面的地址,每个 ...
路径正确下，Eclipse读取txt文件仍失败
症状:使用Eclipse读取文件时,路径输入确认正确(前提!!!),但控制台总报错: 错误类型一: Exception in thread "main" java.io.FileN ...
iOS开发之单例模式
1.概述单例模式是一种常用的软件设计模式,通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问,从而方便对实例个数的控制并节约系统资源. 如果希望系统中某个类的对象只能存在一个,单例模 ...
修改mysql root账号密码
一.拥有原来的myql的root的密码: 方法一:在mysql系统外,使用mysqladmin# mysqladmin -u root -p password "test123"E ...

MapReduce过程(包括Shuffle)详解

MapReduce过程(包括Shuffle)详解的更多相关文章

随机推荐

热门专题