大数据小白系列 —— MapReduce流程的深入说明

上一期我们介绍了MR的基本流程与概念，本期稍微深入了解一下这个流程，尤其是比较重要但相对较少被提及的Shuffling过程。

Mapping

上期我们说过，每一个mapper进程接收并处理一块数据，这块数据的大小默认就是一个HDFS数据块大小。

Mapper处理数据时，基于性能考虑，会使用缓存，缓存的大小有一个默认值(比如100MB)，满了之后，将会写入磁盘文件。

不过在写入之前，会在内存中进行分区(partition)，分区的数量取决于reducer的数量，实际上也就是由MR框架决定，例如上图中是3个。在每个分区内，数据会被按key进行排序，都完成之后，这些数据才会被写入磁盘。

由于缓存可能多次被占满(上图中是3次)，从而导致多次磁盘写入，产生多个磁盘文件，所以每个mapper结束之后，需要对自己所产生的多个文件进行合并(merge)，合并出来的大文件同样进行分区及分区内的排序。

通常，这个合并后的文件会被压缩，以便减少磁盘存储成本，同时也有利于降低shuffling时的网络传输成本。

这些都完成之后，这个所谓的“中间结果”文件，就静静地等待reducer来获取。

Reducing

当一个mapper完成工作之后，所有的reducer们都会收到通知，开始去取该mapper产生的数据文件，不同的reducer取走不同的分区内的数据。

所以取数这一步，并不是等到所有的mapper都完成才开始，而是某个mapper一完成，reducer就会去取。

当所有mapper都完成，所有的中间结果都已被拷贝至reducer，才开始真正的reduce操作，对取来的多个分区数据进行合并和统一排序，最终用户所写的reduce方法会作用在排序后的每一条数据上，以产生最终结果。

Shuffling

上述所说的发生在mapping与reducing之间的数据排序、合并、及拷贝的过程，包括mapping侧的一部分好reducing侧的一部分，即图中红色框出部分，统称为shuffling。

这一步骤的特点是什么？就是重磁盘IO、重网络IO，知道这一点很重要。

- END -

好了，本期就先到这儿，下一期讲讲MR的优点、局限性等内容。

喜欢本文的朋友们，欢迎长按下图关注订阅号程序员杂书馆，提前获得更多更新内容，以及领取大数据及Java经典资料。

大数据小白系列 —— MapReduce流程的深入说明的更多相关文章

大数据小白系列——HDFS(4)
这里是大数据小白系列,这是本系列的第四篇,来看一个真实世界Hadoop集群的规模,以及我们为什么需要Hadoop Federation. 首先,我们先要来个直观的印象,这是你以为的Hadoop集群: ...
大数据小白系列——HDFS(1)
[注1:结尾有大福利!] [注2:想写一个大数据小白系列,介绍大数据生态系统中的主要成员,理解其原理,明白其用途,万一有用呢,对不对.] 大数据是什么?抛开那些高大上但笼统的说法,其实大数据说的是两件 ...
大数据小白系列——HDFS(3)
这里是大数据小白系列,这是本系列的第三篇,介绍HDFS中NameNode选举,JournalNode等概念. 上一期我们说到了为解决NameNode(下称NN)单点失败问题,HDFS中使用了双NN的机 ...
大数据小白系列——HDFS(2)
这里是大数据小白系列,这是本系列的第二篇,介绍一下HDFS中SecondaryNameNode.单点失败(SPOF).以及高可用(HA)等概念. 上一篇我们说到了大数据.分布式存储,以及HDFS中的一 ...
大数据小白系列——MR(1)
一部编程发展史就是一部程序员偷懒史,MapReduce(下称MR)同样是程序员们用来偷懒的工具. 来了一份大数据,我们写了一个程序准备分析它,需要怎么做? 老式的处理方法不行,数据量太大时,所需的时间 ...
大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)
引言在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用 ...
大数据学习系列之五 ----- Hive整合HBase图文详解
引言在上一篇大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环 ...
大数据学习系列之六 ----- Hadoop+Spark环境搭建
引言在上一篇中大数据学习系列之五 ----- Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合 ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...

随机推荐

[hashcat]基于字典和暴力破解尝试找到rar3-hp的压缩包密码
1.使用rar2john找到md5 2.基于字典 hashcat -a 0 -m 12500 /root/Desktop/md5.txt /usr/share/wordlists/weakpass.t ...
初识 go 语言：数据类型
目录数据类型指针结构体数组切片切片的方法映射函数闭包结束语前言: go语言的第三篇文章,主要讲述go语言中的数据类型,包括指针,结构体,数组,切片,映射,函数闭包等,每个都提供了示 ...
Spring MVC 学习总结（一）——MVC概要与环境配置（IDea与Eclipse示例）
一.MVC概要 MVC是模型(Model).视图(View).控制器(Controller)的简写,是一种软件设计规范,用一种将业务逻辑.数据.显示分离的方法组织代码,MVC主要作用是降低了视图与业务 ...
使用Eclipse创建动态的web工程
使用Eclipse创建动态的web工程作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.修改工作区的编码 1>.点击Window选择Preferences 2>.将默 ...
sprin源码解析之属性编辑器propertyEditor
目录异常信息造成此异常的原因 bean 配置文件调用代码特别说明: 异常解决注册springt自带的属性编辑器 CustomDateEditor 控制台输出属性编辑器是何时并如何被注册到s ...
HTML（五）HTML表格
标准表格 <table border="1"> <caption>Monthly savings</caption> <tr> &l ...
Geometric regularity criterion for NSE: the cross product of velocity and vorticity 2: $u\times \om\cdot \n\times \om$
在 [Lee, Jihoon. Notes on the geometric regularity criterion of 3D Navier-Stokes system. J. Math. Phy ...
[物理学与PDEs]第2章习题6 有旋的 Navier-Stokes 方程组
试证明: 由 Navier-Stokes 方程组描述的流体运动一般总是有旋的, 即若 $\rot{\bf u}={\bf 0}$, 则 Navier-Stokes 方程组 (3. 4)-(3. 5) ...
ES6 的一些语法
1,let 声明变量 let 声明的变量只能在let 的块级作用域中生效,也是为了弥补var声明变量的全局污染问题. var 声明变量有变量提升的作用,也就是在声明变量之前可以使用变量 console ...
sort与uniq命令详解
1.sort的作用 (排序) sort 命令对 File 参数指定的文件中的行排序,并将结果写到标准输出. 如果 File 参数指定多个文件,那么 sort 命令将这些文件连接起来,并当作一个文件进行 ...

大数据小白系列 —— MapReduce流程的深入说明

大数据小白系列 —— MapReduce流程的深入说明的更多相关文章

随机推荐

热门专题