Spark Shuffle大揭秘

什么是Shuffle：

Shuffle中文翻译为“洗牌”，需要Shuffle的关键原因是某种具有共同特征的数据需要最终汇聚到一个计算节点上进行计算。

Shuffle面临的问题:

1. 数据量非常大；

2 数据如何分类，及如何Partition，Hash、Sort、钨丝计划

3. 负载均衡（数据倾斜）

4. 网络传输效率，需要在压缩和解压缩做出权衡，序列化和反序列化也是需要考虑的问题。

Hash Shuffle：

1. Key不能是Array

2. Hash Shuffle不需要排序，从理论上就节省了Hadoop MapReduce中进行Shuffle需要排序时候的时间浪费，因为实际生产环境有大量不要排序的Shuffle类型。

思考：不要排序的Hash Shuffle是否一定比不需要排序的Sort额度 Shuffle速度更快？不一定，如果数据规模比较小的情况下，Hash Shuffle会比Sorted Shuffle速度快（很多）！但是如果数据量大，此时Sorted Shuffle一般会比Hash Shuffle快（很多）。

3. 每个ShuffleMapTask会根据key的哈希值计算出当前的key需要写入的Partition，然后把决定后的结果写入单独的文件，此时会导致每个Task产生R（指下一个Stage的并行度）个文件，如果当前的Stage中有M个ShuffleMapTask，则会M*R个文件。

注意：Shuffle操作绝大多数都要通过网路，如果Mapper和Reducer在同一台机器上，此时只需要读取本地磁盘即可。

Hash Shuffle的两大死穴：第一：Shuffle前会产生大量的小文件到磁盘之上，此时会产生大量耗时低效的IO操作；第二：由于内存中需要保存海量的文件操作句柄和临时缓存信息，如果数据量比较庞大的话，内存不可承受，出现OOM等问题。

为了改善上述问题（同时打开太多文件导致Write Handler内存使用过大以及过多文件导致大量的随机读写带来的效率低下的磁盘IO操作），后来推出了Consalidate机制，来把小文件合并，此时Shuffle时产生的文件数量为cores*R，对于ShuffleMapTask的数量明显多于同时可用的并行cores的数量的情况下，Shuffle产生的文件大幅减少，会极大减低OOM的可能。

为此Spark推出了Shuffle Pluggable开发框架，方便系统升级的时候定制Shuffle功能模块，业方面第三方系统改造人员根据实际的业务场景来开发具体最佳的Shuffle模块；核心接口ShuffleManager，具体默认的实现由HashShuffleManager、SortShuffleManager等，Spark1.6.0中具体的配置如下：

为什么需要Sort-Based Shuffle？

1. Shuffle一般包含两个阶段任务：第一部分，产生Shuffle数据的阶段（Map阶段，额外的补充，需要实现ShuffleManager中getWriter来写数据（数据可以以BlockManager写到Memory、Disk、Tachyon等，例如像非常快的Shuffle，此时可以考虑把数据写在内存中，但是内存不稳定，建议采用MEMOrY_AND_DISK方式）），第二部分，使用Shuffle数据的阶段（Reduce阶段，额外的补充，需要实现ShuffleManager的getReader,Reader会向Driver去获取上一个Stage产生的Shuffle数据）。

2.Spark的Job会被划分成很多Stage：

如果只有一个Stage，则这个Job就相当于只有一个Mapper阶段，当然不会产生Shuffle，适合于简单的ETL；

如果不止一个Stage，则最后一个Stage就是最终的Reducer，最左侧的第一个Stage就仅仅是整个Job的Mapper，中间所有的任意一个Stage是其父Stage的Reducer且是其子Stage的Mapper。

3.Spark Shuffle在最开始的时候只支持Hash-base Shuffle：默认Mappper阶段会为Reducer阶段的每一个Task单独创建一个文件来保存该Task中要使用的数据，但是在一些情况下（例如数据量非常大的情况）会造成大量文件（M*R，其中M代表Mapper中的所有的并行任务的数量，R代表）

Spark Shuffle大揭秘的更多相关文章

Hadoop MapReduce概念学习系列之shuffle大揭秘（十九）
shuffle是非常重要!一定要深入理解和多实践. 缓存,分组,排序,转发,这些都是mr的shuffle. Soga 我想得到按流量来排序,而且还是倒序,怎么达到实现呢?这就牵扯到排序的的问题默认是 ...
Spark Streaming揭秘 Day3-运行基石(JobScheduler)大揭秘
Spark Streaming揭秘 Day3 运行基石(JobScheduler)大揭秘引子作为一个非常强大框架,Spark Streaming兼具了流处理和批处理的特点.还记得第一天的谜团么,众 ...
Spark Shuffle原理、Shuffle操作问题解决和参数调优
摘要: 1 shuffle原理 1.1 mapreduce的shuffle原理 1.1.1 map task端操作 1.1.2 reduce task端操作 1.2 spark现在的SortShuff ...
Spark Shuffle数据处理过程与部分调优（源码阅读七）
shuffle...相当重要,为什么咩,因为shuffle的性能优劣直接决定了整个计算引擎的性能和吞吐量.相比于Hadoop的MapReduce,可以看到Spark提供多种计算结果处理方式,对shuf ...
Spark shuffle详细过程
有许多场景下,我们需要进行跨服务器的数据整合,比如两个表之间,通过Id进行join操作,你必须确保所有具有相同id的数据整合到相同的块文件中.那么我们先说一下mapreduce的shuffle过程. ...
MapReduce Shuffle原理与 Spark Shuffle原理
MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌.混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好.MapReduce中的Shuffle更像是洗牌的逆过程,把一 ...
Spark Shuffle实现
Apache Spark探秘:Spark Shuffle实现 http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details ...
大数据实时处理-基于Spark的大数据实时处理及应用技术培训
随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的 ...
[Spark性能调优] 第四章 : Spark Shuffle 中 JVM 内存使用及配置内幕详情
本课主题 JVM 內存使用架构剖析 Spark 1.6.x 和 Spark 2.x 的 JVM 剖析 Spark 1.6.x 以前 on Yarn 计算内存使用案例 Spark Unified Mem ...

随机推荐

Jfreechart 生成不同数据源多个饼图(Multiple Pie Chart)
http://blog.163.com/ppy2790@126/blog/static/103242241201210130736274/ 项目中要用JfreeChart实现不同数据源多个饼图展现每个 ...
Linux环境下的图形系统和AMD R600显卡编程(2)——Framebuffer、DRM、EXA和Mesa简介
转:https://www.cnblogs.com/shoemaker/p/linux_graphics02.html 1. Framebuffer Framebuffer驱动提供基本的显示,fram ...
【Head First Servlets and JSP】笔记12：URL重写
1.会话管理的核心在于“交换会话ID”,来回传递cookie是最简单的方法,容器通过客户端发来的JSSESIONID查找匹配的对话. 2.如果浏览器禁用了cookie,那就意味着浏览器将忽略响应首部中 ...
lelel-5
一.样式有几种引入方式?link和@import有什么区别? 样式有3种引入方式: 外部样式(外联式Linking):是将网页链接到外部样式表<link rel="stylesheet ...
OLTP和OLAP浅析
数据库设计的一个根基就是要弄清楚数据库的类型. 当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing在线事务处理,联机事务处理).联 ...
【bzoj1036】树的统计[ZJOI2008]树链剖分+线段树
题目传送门:1036: [ZJOI2008]树的统计Count 这道题是我第一次打树剖的板子,虽然代码有点长,但是“打起来很爽”,而且整道题只花了不到1.5h+,还是一遍过样例!一次提交AC!(难道前 ...
jQuery计时器插件
/** * 定义一个jQuery计时插件,实现记录计时开始时间.结束时间,总共耗时的功能 * @param $ * * @author Ivan 2862099249@qq.com * @date 2 ...
php+JS进度条
<?phpini_set('max_execution_time','0');//设置本页面加载时间无限制 echo "<div style='border: 1px solid ...
pandas read_sql与read_sql_table、read_sql_query 的区别
一:创建链接数据库引擎 from sqlalchemy import create_engine db_info = {'user':'user', 'password':'pwd', 'host': ...
mysql数据库优化课程---1、数据库的本质是什么
mysql数据库优化课程---1.数据库的本质是什么一.总结一句话总结: 文件夹-文件:一个数据库其实就是一个的文件夹,数据库里面的表就是文件夹里的一个或者多个文件(根据数据库引擎不同而不同,My ...

Spark Shuffle大揭秘

Spark Shuffle大揭秘的更多相关文章

随机推荐

热门专题