Spark Shuffle机制

Spark Shuffle

　　一.HashShuffle

　　　　普通机制：产生磁盘小文件的数量为：M(map task number)*R(reduce task number)

　　　　过程：

　　　　　　1.map task处理完数据之后，写到buffer缓冲区，buffer的大小为32k，个数与reduce task个数一致

　　　　　　2. 每个buffer缓存区满32k后会溢写磁盘，每个buffer最终对应一个磁盘小文件

　　　　　　3.reduce task拉取数据

　　　　问题：

　　　　　　1.shuffle write，read 频繁

　　　　　　2.占用内存过多，容易造成gc以及出现OOM

　　　　　　3.磁盘小文件多，会造成频繁I/O，效率降低

　　　　合并机制：产生磁盘小文件的数量为：C(core number)*R(reduce task number)

　　　　过程：

　　　　　　1.map task处理完数据之后，写到buffer缓冲区，buffer的大小为32k，个数与reduce task个数一致

　　　　　　2.Executor中每个core中的task共用一份buffer缓冲区

　　　　　　3.每个buffer缓存区满32k后会溢写磁盘，每个buffer最终对应一个磁盘小文件

　　　　　　4.reduce task拉取数据

　　二.SortShuffle

　　　　普通机制：产生磁盘小文件数量：2*M(map task number)

　　　　步骤：

　　　　　　1.map task处理完数据之后，首先写入一个5M的数据结构

　　　　　　2.sortShuffle有不定期估算机制，来估算这个内存结构的大小，当估算超过真实的大小，会申请内存：2*估算大小-当前大小

　　　　　　3.申请到内存继续写入内存数据结构，申请不到会溢写磁盘

　　　　　　4.溢写磁盘过程中有排序，每批1万条数据溢写，最终对应两个磁盘文件：一个索引文件，一个数据文件

　　　　　　5.reduce task拉取数据首先读取索引文件，再拉取数据

　　　　bypass机制：产生磁盘小文件数量：2*M(map task number)

　　　　步骤：

　　　　　　1.map task处理完数据之后，首先写入一个5M的数据结构

　　　　　　2.sortShuffle有不定期估算机制，来估算这个内存结构的大小，当估算超过真实的大小，会申请内存：2*估算大小-当前大小

　　　　　　3.申请到内存继续写入内存数据结构，申请不到会溢写磁盘

　　　　　　4.溢写磁盘过程中没有排序，每批1万条数据溢写，最终对应两个磁盘文件：一个索引文件，一个数据文件

　　　　　　5.reduce task拉取数据首先读取索引文件，再拉取数据

Spark Shuffle机制的更多相关文章

Spark Shuffle机制详细源码解析
Shuffle过程主要分为Shuffle write和Shuffle read两个阶段,2.0版本之后hash shuffle被删除,只保留sort shuffle,下面结合代码分析: 1.Shuff ...
spark shuffle 机制
spark shuffle 分为两种 1.byPassSortShuffle 发生条件分区数<=200:无排序及聚合操作主要是直接按照分区号写文件,有多少分区写多少文件不做任何排序,简单直接 ...
【Spark】Spark的Shuffle机制
MapReduce中的Shuffle 在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性 ...
【Spark篇】---Spark中Shuffle机制，SparkShuffle和SortShuffle
一.前述 Spark中Shuffle的机制可以分为HashShuffle,SortShuffle. SparkShuffle概念 reduceByKey会将上一个RDD中的每一个key对应的所有val ...
spark的shuffle机制
对于大数据计算框架而言,Shuffle阶段的设计优劣是决定性能好坏的关键因素之一.本文将介绍目前Spark的shuffle实现,并将之与MapReduce进行简单对比.本文的介绍顺序是:shuffle ...
Spark Shuffle原理、Shuffle操作问题解决和参数调优
摘要: 1 shuffle原理 1.1 mapreduce的shuffle原理 1.1.1 map task端操作 1.1.2 reduce task端操作 1.2 spark现在的SortShuff ...
Spark Shuffle数据处理过程与部分调优（源码阅读七）
shuffle...相当重要,为什么咩,因为shuffle的性能优劣直接决定了整个计算引擎的性能和吞吐量.相比于Hadoop的MapReduce,可以看到Spark提供多种计算结果处理方式,对shuf ...
【Spark学习】Apache Spark安全机制
Spark版本:1.1.1 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4135808.html 目录 W ...
Spark工作机制简述
Spark工作机制主要模块调度与任务分配 I/O模块通信控制模块容错模块 Shuffle模块调度层次应用作业 Stage Task 调度算法 FIFO FAIR(公平调度) Spark应 ...

随机推荐

全网最详细的基于Ubuntu14.04/16.04 + Anaconda2 / Anaconda3 + Python2.7/3.4/3.5/3.6安装Tensorflow详细步骤（图文）（博主推荐）
不多说,直接上干货! 前言建议参照最新的tensorflow安装步骤(Linux,官方网站经常访问不是很稳定,所以给了一个github的地址): https://github.com ...
Java单元测试(Junit+Mock+代码覆盖率)
微信公众号[程序员江湖] 作者黄小斜,斜杠青年,某985硕士,阿里 Java 研发工程师,于 2018 年秋招拿到 BAT 头条.网易.滴滴等 8 个大厂 offer,目前致力于分享这几年的学习经验. ...
您的快递（高并发服务器之poll和epoll）请签收
前言之前已经介绍过select函数,请参考这篇博客:https://www.cnblogs.com/liudw-0215/p/9661583.html,原理都是类似的,有时间先阅读下那篇博客,以便于 ...
数据读取（SQL）与文本写入（fileStream）
要求:从三个不同服务器中取数,对最近10的历史数据进行去重,写出到文本. 1.读取. public static DataTable ExecuteSql(string connectString, ...
[转]Redis配置文件详解
本文转自http://blog.csdn.net/neubuffer/article/details/17003909 redis是一款开源的.高性能的键-值存储(key-value store),和 ...
Python 与 Javascript 之比较
最近由于工作的需要开始开发一些Python的东西,由于之前一直在使用Javascript,所以会不自觉的使用一些Javascript的概念,语法什么的,经常掉到坑里.我觉得对于从Javascript转 ...
最近公共祖先（least common ancestors,LCA）
摘要: 本文主要介绍了解决LCA(最近公共祖先问题)的两种算法,分别是离线Tarjan算法和在线算法,着重展示了在具体题目中的应用细节. 最近公共祖先是指对于一棵有根树T的两个结点u和v,它们的LCA ...
Docker介绍及常用操作演示（一）--技术流ken
Docker简介 Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化.容器是完全使用沙箱机制,相互 ...
Keras入门（二）模型的保存、读取及加载
本文将会介绍如何利用Keras来实现模型的保存.读取以及加载. 本文使用的模型为解决IRIS数据集的多分类问题而设计的深度神经网络(DNN)模型,模型的结构示意图如下: 具体的模型参数可以参考文章 ...
Java高并发--AQS
Java高并发--AQS 主要是学习慕课网实战视频<Java并发编程入门与高并发面试>的笔记 AQS是AbstractQueuedSynchronizer的简称,直译过来是抽象队列同步器. ...

Spark Shuffle机制

Spark Shuffle机制的更多相关文章

随机推荐

热门专题