Spark的shuffle和MapReduce的shuffle对比

MapperReduce的shuffle
Spark的shuffle
总结

MapperReduce的shuffle

shuffle阶段划分

Map阶段和Reduce阶段

任务

MapTask和ReduceTask

shuffle过程

Map阶段shuffle：分区->排序->合并

①数据从环形缓冲区溢写到磁盘前，需要先进行分区，然后区内排序

②环形缓存区数据到达阈值(80%)，会以小文件的形式溢写到磁盘，此过程可以开启combiner

③将溢写的小文件按照相同分区进行merge

Reduce阶段shuffle：拷贝数据->排序->合并

①一个ReduceTask负责一个分区数据，需从多个MapTask的同一个分区拷贝数据到机器。

②将拷贝过来的数据优先存储在内存，次之磁盘，然后排序，合并做到数据分区内有序

shffle的意义：只有存在reduce才有shuffle，shuffle的意义就是给reduce提供服务。

Spark的shuffle

介绍

①spark的某些算子会触发shuffle，出现shuffle的目的是在不同分区间重新分配数据。

②shuffle过程数据是跨机器传输的，消耗大量的网络io和序列化，消耗性能。

③shuffle后不能保证新的分区的数据是有序的。区别于MR ( MR的shuffle后区内的数据是有序的 )

但是可以调用排序的算子，使得数据区内有序。

④产生shuffle的算子都是分两步执行，mapTask组织数据(shuffle write), reduceTask(shuffle read)

⑤spark的mapTask优先将数据写入内存，内存不足，将数据区内有序，溢写到磁盘

会产生shuffle的算子

①repartition 和 coalesce 重新计算分区的算子。

②??ByKey：除了countByKey，都会产线shuffle

③cogroup 和 join

性能的影响

shuffle就是将数据在不同分区间进行聚合分配，集群的多节点的数据交换，会涉及到磁盘I/O，序列化，网络I/O，很消耗性能。

总结

spark中的shuffle耗时，消耗性能，应该尽量避免！

spark中的shuffle和MapReduce的shuffle的功能一致，跨机器传输数据，细节略有不同。

Spark的shuffle和MapReduce的shuffle对比的更多相关文章

[Spark性能调优] 第三章 : Spark 2.1.0 中 Sort-Based Shuffle 产生的内幕
本課主題 Sorted-Based Shuffle 的诞生和介绍 Shuffle 中六大令人费解的问题 Sorted-Based Shuffle 的排序和源码鉴赏 Shuffle 在运行时的内存管理 ...
Spark源码分析之Sort-Based Shuffle读写流程
一 .概述我们知道Spark Shuffle机制总共有三种: 1.未优化的Hash Shuffle:每一个ShuffleMapTask都会为每一个ReducerTask创建一个单独的文件,总的文件数 ...
Spark 调优之ShuffleManager、Shuffle
Shuffle 概述影响Spark性能的大BOSS就是shuffle,因为该环节包含了大量的磁盘IO.序列化.网络数据传输等操作. 因此,如果要让作业的性能更上一层楼,就有必要对 shuffle 过 ...
Spark Tungsten揭秘 Day2 Tungsten-sort Based Shuffle
Spark Tungsten揭秘 Day2 Tungsten-sort Based Shuffle 今天在对钨丝计划思考的基础上,讲解下基于Tungsten的shuffle. 首先解释下概念,Tung ...
Spark技术内幕：如何解决Shuffle Write一定要落盘的问题？
在Spark 0.6和0.7时,Shuffle的结果都需要先存储到内存中(有可能要写入磁盘),因此对于大数据量的情况下,发生GC和OOM的概率非常大.因此在Spark 0.8的时候,Shuffle的每 ...
Spark技术内幕：Sort Based Shuffle实现解析
在Spark 1.2.0中,Spark Core的一个重要的升级就是将默认的Hash Based Shuffle换成了Sort Based Shuffle,即spark.shuffle.manager ...
大数据技术 - MapReduce的Shuffle及调优
本章内容我们学习一下 MapReduce 中的 Shuffle 过程,Shuffle 发生在 map 输出到 reduce 输入的过程,它的中文解释是 “洗牌”,顾名思义该过程涉及数据的重新分配,主要 ...
MapReduce核心 - - - Shuffle
大数据名词(1) -Shuffle Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方.要想理解MapReduce, Shuffle是必须要了解的.我看过很多相关的资料,但每 ...
MapReduce的Shuffle过程介绍
MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌.混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好.MapReduce中的Shuffle更像是洗牌的逆过程,把一 ...

随机推荐

Jquery校验中国身份证号码是否正确
在项目中使用表单时经常会涉及到身份证号码是否正确的校验,下面看看应该中国二代身份证号码应该怎么用Jquery校验呢? 二代身份证校验码的计算方法二代身份证由17位数字和一位校验码组成,那么校验方法是 ...
Git 极速上手(超简单)
前言:本文主要介绍了一种快速入门使用Git的方法,通过四步完成本地仓库构建和推送到远程仓库(Github.Gitee码云),简单说明最常用的命令,不需要明白Git的原理即可使用,本文不介绍具体原理. ...
python基础数据类型语法
#标识符:我们自己在写代码的时候,取的名字.#项目名 project name#包名 package name#模块名 .py ptthon文件名#规范:由字母数字下划线组成,但不能以数字#简明知意: ...
pyinstaller打包：AttributeError: module ‘win32ctypes.pywin32.win32api’ has no attribute ‘error’
pyinstaller打包:AttributeError: module 'win32ctypes.pywin32.win32api' has no attribute 'error' 是因为pyin ...
运行脚本结果出现 Vim: Warning 并且卡住不能输入其它命令
当我在执行一个关于执行linux操作的php脚本时,就出现了以下信息:"Vim: Warning: Output is not to a terminal",接着出现了一大堆的字 ...
java 获得微信 UserId
.... public String cs() throws Exception{ /*访问页面,服务器会得到 code(request.getParameter("code")) ...
CTF入门学习2->Web基础了解
Web安全基础 00 Web介绍 00-00 Web本意是网,这里多指万维网(World Wide Web),是由许多互相连接的超文本系统组成的,通过互联网访问. Web是非常广泛的互联网应用,每天都 ...
python实现超大图像的二值化方法
一,分块处理超大图像的二值化问题 (1) 全局阈值处理 (2) 局部阈值二,空白区域过滤三,先缩放进行二值化,然后还原大小 np.mean() 返回数组元素的平均值 np.std() 返回数 ...
[loj3146]路灯
显然,能从$l$到$r$当且仅当$[l,r)$中的灯全部都亮,以下不妨令询问的$r$全部减1 当修改节点$x$时,找到包含$x$的极大的灯(除$x$以外)全部都亮的区间$[l,r]$,即令$l_{0} ...
C#中的异步
什么是异步? 作为一名Web端的码农,第一次接触异步是Ajax. 异步请求后端获取数据源,js操作html的dom节点,而无需要渲染整个网页的操作. 页面上点击按钮,加载进度动画,同时发起Ajax请求 ...

Spark的shuffle和MapReduce的shuffle对比

MapperReduce的shuffle

Spark的shuffle

总结

Spark的shuffle和MapReduce的shuffle对比的更多相关文章

随机推荐

热门专题