大数据小白系列 —— MapReduce流程的深入说明

上一期我们介绍了MR的基本流程与概念，本期稍微深入了解一下这个流程，尤其是比较重要但相对较少被提及的Shuffling过程。

Mapping

上期我们说过，每一个mapper进程接收并处理一块数据，这块数据的大小默认就是一个HDFS数据块大小。

Mapper处理数据时，基于性能考虑，会使用缓存，缓存的大小有一个默认值(比如100MB)，满了之后，将会写入磁盘文件。

不过在写入之前，会在内存中进行分区(partition)，分区的数量取决于reducer的数量，实际上也就是由MR框架决定，例如上图中是3个。在每个分区内，数据会被按key进行排序，都完成之后，这些数据才会被写入磁盘。

由于缓存可能多次被占满(上图中是3次)，从而导致多次磁盘写入，产生多个磁盘文件，所以每个mapper结束之后，需要对自己所产生的多个文件进行合并(merge)，合并出来的大文件同样进行分区及分区内的排序。

通常，这个合并后的文件会被压缩，以便减少磁盘存储成本，同时也有利于降低shuffling时的网络传输成本。

这些都完成之后，这个所谓的“中间结果”文件，就静静地等待reducer来获取。

Reducing

当一个mapper完成工作之后，所有的reducer们都会收到通知，开始去取该mapper产生的数据文件，不同的reducer取走不同的分区内的数据。

所以取数这一步，并不是等到所有的mapper都完成才开始，而是某个mapper一完成，reducer就会去取。

当所有mapper都完成，所有的中间结果都已被拷贝至reducer，才开始真正的reduce操作，对取来的多个分区数据进行合并和统一排序，最终用户所写的reduce方法会作用在排序后的每一条数据上，以产生最终结果。

Shuffling

上述所说的发生在mapping与reducing之间的数据排序、合并、及拷贝的过程，包括mapping侧的一部分好reducing侧的一部分，即图中红色框出部分，统称为shuffling。

这一步骤的特点是什么？就是重磁盘IO、重网络IO，知道这一点很重要。

- END -

好了，本期就先到这儿，下一期讲讲MR的优点、局限性等内容。

喜欢本文的朋友们，欢迎长按下图关注订阅号程序员杂书馆，提前获得更多更新内容，以及领取大数据及Java经典资料。

大数据小白系列 —— MapReduce流程的深入说明的更多相关文章

大数据小白系列——HDFS(4)
这里是大数据小白系列,这是本系列的第四篇,来看一个真实世界Hadoop集群的规模,以及我们为什么需要Hadoop Federation. 首先,我们先要来个直观的印象,这是你以为的Hadoop集群: ...
大数据小白系列——HDFS(1)
[注1:结尾有大福利!] [注2:想写一个大数据小白系列,介绍大数据生态系统中的主要成员,理解其原理,明白其用途,万一有用呢,对不对.] 大数据是什么?抛开那些高大上但笼统的说法,其实大数据说的是两件 ...
大数据小白系列——HDFS(3)
这里是大数据小白系列,这是本系列的第三篇,介绍HDFS中NameNode选举,JournalNode等概念. 上一期我们说到了为解决NameNode(下称NN)单点失败问题,HDFS中使用了双NN的机 ...
大数据小白系列——HDFS(2)
这里是大数据小白系列,这是本系列的第二篇,介绍一下HDFS中SecondaryNameNode.单点失败(SPOF).以及高可用(HA)等概念. 上一篇我们说到了大数据.分布式存储,以及HDFS中的一 ...
大数据小白系列——MR(1)
一部编程发展史就是一部程序员偷懒史,MapReduce(下称MR)同样是程序员们用来偷懒的工具. 来了一份大数据,我们写了一个程序准备分析它,需要怎么做? 老式的处理方法不行,数据量太大时,所需的时间 ...
大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)
引言在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用 ...
大数据学习系列之五 ----- Hive整合HBase图文详解
引言在上一篇大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环 ...
大数据学习系列之六 ----- Hadoop+Spark环境搭建
引言在上一篇中大数据学习系列之五 ----- Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合 ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...

随机推荐

require.js使用教程
require.js使用教程下载require.js, 并引入官网: http://www.requirejs.cn/ github : https://github.com/requirejs/ ...
linux中的find命令常用场景
1.find file.txt 在当前目录下,查找file.txt是否存在 2.find . -name file.txt 在当前目录下,递归查找file.txt文件 ...
MySQL_关于索引空间的的一些记录
一.清理普通索引占用的空间问:对表中存在的k列(非主键)的普通索引执行以下重建操作,有什么影响? alter table T drop index k; alter table T add inde ...
结合别人的文章，做RocketMQ的一点原理分析，结合源码(尽量)----未完待续
Broker 与Namesrv的关系 1.从namesrv获取配置信息 /** * BrokerConfig类 * * broker每隔30秒(此时间无法更改)向所有nameserver发送心跳,心跳 ...
Kubernetes之StatefulSet
什么是StatefulSet StatefulSet 是Kubernetes中的一种控制器,他解决的什么问题呢?我们知道Deployment是对应用做了一个简化设置,Deployment认为一个应用的 ...
分布式监控系统开发【day38】:监控trigger表结构设计（一）
一.需求讨论 1.zabbix触发器的模板截图 1.zabbix2.4.7 2.zabbix3.0 2.模板与触发器关联的好处好处就是可以批量处理,比如我说我有1000机器都要监控cpu.内存.IO ...
Java NIO系列教程（一） Java NIO 概述
<I/O模型之四:Java 浅析I/O模型> 一.阻塞IO与非阻塞IO 阻塞IO: 通常在进行同步I/O操作时,如果读取数据,代码会阻塞直至有可供读取的数据.同样,写入调用将会阻塞直至数 ...
C#中访问私有成员技巧
源代码是别人的,你就不能修改源代码,只提供给你dll.或者你去维护别人的代码,源代码却有丢失.这样的情况如果你想知道私有成员的值,甚至去想直接调用类里面的私有方法.那怎么办呢?其实在.net中访问私有 ...
https协议的简单理解
本片文章梳理三个知识点: 1.对称加密和非对称加密的区别 2.https协议的请求流程 3.http协议和https协议的区别一.对称加密和非对称加密对称加密:加密和解密使用同一密钥. 非对称加密 ...
CentOS 安装 ceph 单机版
简介 Ceph是一个分布式存储软件. 它支持用3种方式存储数据,分别是:对象存储.块设备存储.分布式文件系统存储. Ceph这个软件,分为3层,最底层是Rados对象存储系统.中间是一个librado ...

大数据小白系列 —— MapReduce流程的深入说明

大数据小白系列 —— MapReduce流程的深入说明的更多相关文章

随机推荐

热门专题