MapReduce的shuffle过程详解

[学习笔记]

结果分析：
shuffle的英文是洗牌，混洗的意思，洗牌就是越乱越好的意思。当在集群的情况下是这样的，假如有三个map节点和三个reduce节点，一号reduce节点的数据会来自于三个map节点，而不是就来自于一号map节点。所以说它们的数据会混合，路线会交叉， 3叉3。想象一下，像不像洗牌？马克-to-win @ 马克java社区：shuffle在MapReduce中是指map输出后到reduce接收前，按下面的官方shuffle图：具体可以分为map端和reduce端两个部分。在最开始，假设我们就提交一个大文件，MapReduce会对要处理的大文件数据进行分片（split）操作放到多台机器的集群里，（想象一个搬走大山的大活给一个师的人马，是不是要把人，部署一圈，展开，一人干一块儿，现在是一样的道理。现在你要摆弄一个1.5T的文件，需要先把它切开，分配到不同机器）为每一个分片分配一个MapTask任务，接下来会对每一个分片中的每一行数据进行处理，得到键值对（key,value），其中key为偏移量，value为一行的内容。准备给咱们的自己的map方法。执行完咱自己的map方法，便进入shuffle阶段。马克-to-win @ 马克java社区：为提高效率，mapreduce会把我们的写出的结果先存储到map节点的“环形内存缓冲区”（不深入探讨），当写入的数据量达到预先设置的阙值后（默认80%）便会启动溢出（spill）线程将缓冲区中的那部分数据溢出写（spill）到磁盘的临时文件中，可能会产生很多，并在写入前根据key进行排序（sort）和合并（combine，本章不讨论）。

文章转载自原文： https://blog.csdn.net/qq_44594249/article/details/95864731

MapReduce的shuffle过程详解的更多相关文章

MapReduce：Shuffle过程详解
1.Map任务处理 1.1 读取HDFS中的文件.每一行解析成一个<k,v>.每一个键值对调用一次map函数. <0,hello you> & ...
Hadoop Mapreduce的shuffle过程详解
1.map task读取数据时默认调用TextInputFormat的成员RecoreReader,RecoreReader调用自己的read()方法,进行逐行读取,返回一个key.value; 2. ...
hadoop: Shuffle过程详解 (转载)
原文地址:http://langyu.iteye.com/blog/992916 另一篇博文:http://www.cnblogs.com/gwgyk/p/3997849.html Shuffle过程 ...
Mapreduce中maptask过程详解
一.Maptask并行度与决定机制 1.一个job任务的map阶段的并行度默认是由该任务的大小决定的: 2.一个split切分分配一个maprask来并行处理: 3.默认情况下,split切分的大小等 ...
Shuffle过程详解
Hadoop Mapreduce分区、分组、二次排序过程详解[转]
原文地址:Hadoop Mapreduce分区.分组.二次排序过程详解[转]作者: 徐海蛟教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2) ...
MapReduce过程详解(基于hadoop2.x架构)
本文基于hadoop2.x架构详细描述了mapreduce的执行过程,包括partition,combiner,shuffle等组件以及yarn平台与mapreduce编程模型的关系. mapredu ...
Hadoop MapReduce执行过程详解（带hadoop例子）
https://my.oschina.net/itblog/blog/275294 摘要: 本文通过一个例子,详细介绍Hadoop 的 MapReduce过程. 分析MapReduce执行过程 Map ...
Hadoop学习之Mapreduce执行过程详解
一.MapReduce执行过程 MapReduce运行时,首先通过Map读取HDFS中的数据,然后经过拆分,将每个文件中的每行数据分拆成键值对,最后输出作为Reduce的输入,大体执行流程如下图所示: ...

随机推荐

初步学习MySQL
我们之前学习如何安装MySQL数据库以及 navicat 管理数据库可视化工具那么现在主要来学习一下如何使用,(操作数据库有很多方式,终端操作.可视化工具操作.编程语句操作) 我们首先学习在终端操 ...
设计一个树型目录结构的文件系统，其根目录为 root，各分支可以是目录，也可以是文件，最后的叶子都是文件。
设计一个树型目录结构的文件系统,其根目录为 root,各分支可以是目录,也可以是文件,最后的叶子都是文件. 我实现的功能是提供父目录(兄弟目录),输入文件名,创建树型目录结构,文本文件不可以再有子目录 ...
Pyhton3异常处理
例: while True: try: x = int(input("Please enter a number: ")) ...
hashCode 的常规协定是：
hashCode 的常规协定是: . 在 Java 应用程序执行期间,在同一对象上多次调用 hashCode 方法时,必须一致地返回相同的整数,前提是对象上 equals 比较中所用的信息没有被修改 ...
Java实现通过IP获取域名，通过域名获取IP
一.通过Linux命令实现 ping www.baidu.com nslookup www.baidu.com nslookup 14.215.177.166 为什么这个命令会有一个192.168.1 ...
js学习笔记(1)
前言因为后期的软件工程组队作业需要js,在纪华裕大佬的带领下(我觉得他好像更喜欢纪华裕这个名字),我开始了js的学习.其实这篇博客应该在两天前的晚上就发出来了,因为忙着写个人编程,拖到了现在,组 ...
配置BeautifulSoup4+lxml+html5lib
序 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数 ...
Wamp 升级php7.3报错
电脑系统:win10 Wamp版本: WampServer Version 3.0.4 32bit Apache 2.4.18 - PHP 7.3.7 - MySQL 5.7.11 PHP 5.6.1 ...
vue - 设置全局html背景
需求有时候有些组件需要全局设置body背景,有些不需要在组件中设置就行了解决思路 1. 全局设置可以是html,body,这里大家可以试一下,这两个只要其中一个设置了background,另一个的 ...
pytorch加载数据的方法-没弄，打算弄
参考:https://www.jianshu.com/p/aee6a3d72014 # 网络,netg为生成器,netd为判别器 netg, netd = NetG(opt), NetD(opt) # ...

MapReduce的shuffle过程详解

MapReduce的shuffle过程详解的更多相关文章

随机推荐

热门专题