Spark Shuffle机制

Spark Shuffle

　　一.HashShuffle

　　　　普通机制：产生磁盘小文件的数量为：M(map task number)*R(reduce task number)

　　　　过程：

　　　　　　1.map task处理完数据之后，写到buffer缓冲区，buffer的大小为32k，个数与reduce task个数一致

　　　　　　2. 每个buffer缓存区满32k后会溢写磁盘，每个buffer最终对应一个磁盘小文件

　　　　　　3.reduce task拉取数据

　　　　问题：

　　　　　　1.shuffle write，read 频繁

　　　　　　2.占用内存过多，容易造成gc以及出现OOM

　　　　　　3.磁盘小文件多，会造成频繁I/O，效率降低

　　　　合并机制：产生磁盘小文件的数量为：C(core number)*R(reduce task number)

　　　　过程：

　　　　　　1.map task处理完数据之后，写到buffer缓冲区，buffer的大小为32k，个数与reduce task个数一致

　　　　　　2.Executor中每个core中的task共用一份buffer缓冲区

　　　　　　3.每个buffer缓存区满32k后会溢写磁盘，每个buffer最终对应一个磁盘小文件

　　　　　　4.reduce task拉取数据

　　二.SortShuffle

　　　　普通机制：产生磁盘小文件数量：2*M(map task number)

　　　　步骤：

　　　　　　1.map task处理完数据之后，首先写入一个5M的数据结构

　　　　　　2.sortShuffle有不定期估算机制，来估算这个内存结构的大小，当估算超过真实的大小，会申请内存：2*估算大小-当前大小

　　　　　　3.申请到内存继续写入内存数据结构，申请不到会溢写磁盘

　　　　　　4.溢写磁盘过程中有排序，每批1万条数据溢写，最终对应两个磁盘文件：一个索引文件，一个数据文件

　　　　　　5.reduce task拉取数据首先读取索引文件，再拉取数据

　　　　bypass机制：产生磁盘小文件数量：2*M(map task number)

　　　　步骤：

　　　　　　1.map task处理完数据之后，首先写入一个5M的数据结构

　　　　　　2.sortShuffle有不定期估算机制，来估算这个内存结构的大小，当估算超过真实的大小，会申请内存：2*估算大小-当前大小

　　　　　　3.申请到内存继续写入内存数据结构，申请不到会溢写磁盘

　　　　　　4.溢写磁盘过程中没有排序，每批1万条数据溢写，最终对应两个磁盘文件：一个索引文件，一个数据文件

　　　　　　5.reduce task拉取数据首先读取索引文件，再拉取数据

Spark Shuffle机制的更多相关文章

Spark Shuffle机制详细源码解析
Shuffle过程主要分为Shuffle write和Shuffle read两个阶段,2.0版本之后hash shuffle被删除,只保留sort shuffle,下面结合代码分析: 1.Shuff ...
spark shuffle 机制
spark shuffle 分为两种 1.byPassSortShuffle 发生条件分区数<=200:无排序及聚合操作主要是直接按照分区号写文件,有多少分区写多少文件不做任何排序,简单直接 ...
【Spark】Spark的Shuffle机制
MapReduce中的Shuffle 在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性 ...
【Spark篇】---Spark中Shuffle机制，SparkShuffle和SortShuffle
一.前述 Spark中Shuffle的机制可以分为HashShuffle,SortShuffle. SparkShuffle概念 reduceByKey会将上一个RDD中的每一个key对应的所有val ...
spark的shuffle机制
对于大数据计算框架而言,Shuffle阶段的设计优劣是决定性能好坏的关键因素之一.本文将介绍目前Spark的shuffle实现,并将之与MapReduce进行简单对比.本文的介绍顺序是:shuffle ...
Spark Shuffle原理、Shuffle操作问题解决和参数调优
摘要: 1 shuffle原理 1.1 mapreduce的shuffle原理 1.1.1 map task端操作 1.1.2 reduce task端操作 1.2 spark现在的SortShuff ...
Spark Shuffle数据处理过程与部分调优（源码阅读七）
shuffle...相当重要,为什么咩,因为shuffle的性能优劣直接决定了整个计算引擎的性能和吞吐量.相比于Hadoop的MapReduce,可以看到Spark提供多种计算结果处理方式,对shuf ...
【Spark学习】Apache Spark安全机制
Spark版本:1.1.1 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4135808.html 目录 W ...
Spark工作机制简述
Spark工作机制主要模块调度与任务分配 I/O模块通信控制模块容错模块 Shuffle模块调度层次应用作业 Stage Task 调度算法 FIFO FAIR(公平调度) Spark应 ...

随机推荐

springboot rabbitmq整合
这一篇我们来把消息中间件整合到springboot中 ===================================================================== 首先在 ...
Python快速学习01：Eclipse上配置PyDev & 'Hello World ！'
前言系列文章:[传送门] 答应了Vamei,帮他传文章,Python,顺自己学学. 很喜欢这种黏黏的语言突然发现--我用的GoAgent(谷歌FQ软件),竟然是Python编的. 简介 Pytho ...
python使用多线程
threading 模块支持守护线程, 其工作方式是:守护线程一般是一个等待客户端请求服务的服务器. 如果把一个线程设置为守护线程,进程退出时不需要等待这个线程执行完成. 如果主线程准备退出时,不需要 ...
TCP可靠数据传输
TCP可靠数据传输在TCP在IP不可靠的尽力而为的服务之上,创建了一条可靠数据传输服务(reliable data transfer service).TCP提供的可靠数据传输的方法涉及到可靠数 ...
vs javascript intellisence失效
前些天写js的时候发现vs的提示都没了...纳闷但是没去了解原因. 今天实在是受不了了. 网上搜了一下,看到msdn文档上一句话,“通过使用 reference 指令,Visual Studio 能够 ...
Java 趣史-差点把 Java 命名成了 Silk（丝绸）
差点把 Java 命名成了 Silk(丝绸) Java 命名的由来 Java是印度尼西亚爪哇岛的英文名称,因盛产咖啡而闻名.Java语言中的许多库类名称,多与咖啡有关:如JavaBeans(咖啡豆). ...
Haskell复习笔记(一)
Haskell笔记这是第三次总结,前两次都因为各种原因丢失了,对于Haskell我算不上什么大神,只不过在大学时为了学习算法时选择了Haskell. 当时的入门书籍选择的是<Learn You ...
C#字符串。
string类型不能被继承,它是密封类,sealed. 一.字符串的特性. 1.不可变性. class Program { static void Main(string[] args) { stri ...
快速搭建一个Quartz定时任务【转载，好文，值得收藏，亲身试用效果不错】
Quartz.NET 入门概述 Quartz.NET是一个开源的作业调度框架,非常适合在平时的工作中,定时轮询数据库同步,定时邮件通知,定时处理数据等. Quartz.NET允许开发人员根据时间间隔 ...
spring2.0：The server time zone value 'ÃÃÂ¹ÃºÂ±ÃªÃÂ¼ÃÂ±Â¼Ã¤' is unrecognized or represents more than one time zone. You must configure either th
提示系统时区出现错误,可以在mysql中执行命令: set global time_zone='+8:00' 或者在数据库驱动的url后加上serverTimezone=UTC参数 jdbc:mysq ...

Spark Shuffle机制

Spark Shuffle机制的更多相关文章

随机推荐

热门专题