简要MR与Spark在Shuffle区别

一、区别

①本质上相同，都是把Map端数据分类处理后交由Reduce的过程。

②数据流有所区别，MR按map, spill, merge, shuffle, sort, r

educe等各阶段逐一实现。Spark基于DAG数据流，可实现更复杂数据流操作（根据宽/窄依赖实现）

③实现功能上有所区别，MR在map中做了排序操作，而Spark假定大多数应用场景Shuffle数据的排序操作不是必须的，而是采用Aggregator机制（Hashmap每个元素<K,V>形式）实现。（下面有较详细说明）

ps：为了减少内存使用，Aggregator是在磁盘进行，也就是说，尽管Spark是“基于内存的计算框架”，但是Shuffle过程需要把数据写入磁盘

二、MR中的Shuffle

在MR框架中，Shuffle是连接Map和Reduce之间的桥梁，Map的输出结果需要经过Shuffle过程之后，也就是经过数据分类以后再交给Reduce进行处理。因此，Shuffle的性能高低直接影响了整个程序的性能和吞吐量。由此可知，Shuffle是指对Map输出结果进行分区、排序、合并等处理并交给Reduce的过程。因此，MapReduce的Shuffle过程分为Map端的操作和Reduce端的操作，如下图：

简单点说： Map端Shuffle过程，就是对Map输出结果写入缓存、分区、排序、合并再写入磁盘。

Reduce端Shuffle过程，就是从不同Map机器取回输出进行归并后交给Reduce进行处理。

三、Spark中的Shuffle

①、Spark作为MR框架的改进，也实现了Shuffle的逻辑，如下图：

Map端的Shuffle写入（Shuffle Write）方面，每个Map根据Reduce任务的数量创造相应桶数量m*r（桶为抽象概念，m是map任务r是reduce任务），Map任务产生的结果根据分区算法（默认hash）到不同桶中。当Reduce任务启动时，会根据自己任务的id和所依赖的Map任务的id，从远端或本地取得对应的桶，作为Reduce任务的输入进行处理。

ps：在Spark1.2的版本后，Shuffle引擎改为SortShuffleManager（原来为HashShuffleManager），也就是把每个Map任务所有输出数据都写到同一个任务中，避免小文件太多对性能的影响。因此Shuffle过程中，每个Map任务会产生数据文件及所有文件两个。

②、在Reduce端的Shuffle读取（Shuffle Fetch）方面，大多数场景Spark并不在Reduce端做归并和排序，而是采用Aggregator机制。Aggregator本质是个HashMap，其中每个元素都是<K,V>形式。

ps：以词频统计为例，它会将从Map端拉取到的每一个(key,value)，更新或插入到HashMap中。若在HashMap中没有查找到这个key，则把这个(key,value)插入其中；若找到这个key，则把value的值累加到V上去。这样就不需要预先把所有的(key,value)进行归并和排序，而是来一个处理一个，避免外部排序这一步骤。

③、窄依赖宽依赖

以是否包含Shuffle操作为判断依据，RDD中的依赖关系可以分为窄依赖与宽依赖，区别如下

窄依赖：一个父RDD的分区对应一个子RDD的分区，或者多个父RDD的分区对应一个子RDD的分区。典型操作包括map/filter/union等，不会包含Shuffle操作

宽依赖：一个父RDD的一个分区对应一个子RDD的多个分区。典型操作包括groupByKey/sortByKey等，通常包含Shuffle操作

ps：对于join操作，视情况而定，如上图左侧进行协同划分，数据窄依赖。如上图右侧做非协同划分，属于宽依赖。

④、阶段划分

Spark根据DAG图中的RDD依赖关系，把一个作业分成多个阶段。参考下图例子过程：

Stage2为窄依赖，可以把多个fork/join合并为一个，不但减少了大量的全局路障，而且无需保存很多中间结果RDD，可以极大提高性能，该过程叫流水线优化（Pipeline）

学习交流，有任何问题还请随时评论指出交流。

简要MR与Spark在Shuffle区别的更多相关文章

spark.sql.shuffle.partitions和spark.default.parallelism的区别
在关于spark任务并行度的设置中,有两个参数我们会经常遇到,spark.sql.shuffle.partitions 和 spark.default.parallelism, 那么这两个参数到底有什 ...
Spark的shuffle和MapReduce的shuffle对比
目录 MapperReduce的shuffle Spark的shuffle 总结 MapperReduce的shuffle shuffle阶段划分 Map阶段和Reduce阶段任务 MapTask和 ...
大数据学习day18----第三阶段spark01--------0.前言（分布式运算框架的核心思想，MR与Spark的比较，spark可以怎么运行，spark提交到spark集群的方式）1. spark(standalone模式)的安装 2. Spark各个角色的功能 3.SparkShell的使用，spark编程入门（wordcount案例）
0.前言 0.1 分布式运算框架的核心思想(此处以MR运行在yarn上为例) 提交job时,resourcemanager(图中写成了master)会根据数据的量以及工作的复杂度,解析工作量,从而 ...
【Spark】Spark的Shuffle机制
MapReduce中的Shuffle 在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性 ...
详细探究Spark的shuffle实现
Background 在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响 ...
[Spark] - HashPartitioner & RangePartitioner 区别
Spark RDD的宽依赖中存在Shuffle过程,Spark的Shuffle过程同MapReduce,也依赖于Partitioner数据分区器,Partitioner类的代码依赖结构主要如下所示: ...
【Spark篇】---Spark中Shuffle文件的寻址
一.前述 Spark中Shuffle文件的寻址是一个文件底层的管理机制,所以还是有必要了解一下的. 二.架构图三.基本概念: 1) MapOutputTracker MapOutputTracker ...
【Spark篇】---Spark中Shuffle机制，SparkShuffle和SortShuffle
一.前述 Spark中Shuffle的机制可以分为HashShuffle,SortShuffle. SparkShuffle概念 reduceByKey会将上一个RDD中的每一个key对应的所有val ...
Spark 的 Shuffle过程介绍`
Spark的Shuffle过程介绍 Shuffle Writer Spark丰富了任务类型,有些任务之间数据流转不需要通过Shuffle,但是有些任务之间还是需要通过Shuffle来传递数据,比如wi ...

随机推荐

戴尔iDRAC+Ubuntu 18.04系统安装
Ubuntu镜像下载链接:http://mirrors.aliyun.com/ubuntu-releases/18.04/ 1.登录戴尔管理口 2.点击虚拟控制台 3.选择镜像 4.挂载镜像 5.选择 ...
MVC-采用Bundles方式引入css和js文件
优点:修改js或css时会自动生成hash版本号. 缺点:需要在BundleConfig中先添加对应的文件,然后在html中再引用对应的bundle,多操作了一步. web.config中 <c ...
MySQL PXC集群安装配置
1.关闭防火墙 [root@node04 ~]#systemctl disable firewalld [root@node04 ~]#systemctl stop firewalld [root@n ...
gitlab+jenkins 持续部署自动化测试
背景:为了减少测试部署时间和减少不必要的重复工作,采用持续集成的方式进行部署,当gitlab的release (测试)分支有代码变动时,自动拉取代码部署测试环境,并进行接口回归测试优点:部署自动化, ...
MySQL01-数据库概述
1.概述 1.1 什么是数据库? 用于存储和管理数据的仓库. 1.2 数据库的特点: 1. 持久化存储数据的.其实数据库就是一个文件系统 2. 方便存储和管理数据 3. 使用了统一的方式操作数据库 - ...
windows宿主机访问ubuntu虚拟机中的docker服务
查看docker容器地址和虚拟机地址 windows主机中添加路由 #route -p add 172.17.0.0 mask 255.255.0.0 虚拟机地址 route -p add 172.1 ...
windows jupyter lab中.ipynb转中文PDF
在jupyter lab中,File-Export Notebook as-Export Notebook to PDF,可以导出成PDF格式的文档,但在操作前需要安装些程序.1. 安装pandocA ...
出现VMware Workstation 无法连接到虚拟机。请确保您有权运行该程序、访问该程序使用的所有目录以及访问所有临时文件目录。未能将管道连接到虚拟机: 所有的管道范例都在使用中。
今天在学习Linux 的时候启动VM时出现了这个问题, 搞了很久终于弄好了, 就写篇博客来记录一下,帮助一下大家,如果对大家有帮助,还请大哥大姐点个关注,你的支持就是我坚持下去的动力 ! VMwar ...
Mongodb分布式集群副本集+分片
目录简介 1. 副本集 1.1 MongoDB选举的原理 1.2 复制过程 2. 分片技术 2.1 角色 2.2 分片的片键 2.3 片键分类环境介绍 1.获取软件包 2.创建路由.配置.分片等的 ...
使用SimpleDateFormat验证日期格式
Java中日期格式的验证有很多方式,这里介绍用 java.text.SimpleDateFormat 来实现时间验证的一种简单方式.首先我们要知道 SimpleDateFormat 对象有一个方法 v ...

简要MR与Spark在Shuffle区别

简要MR与Spark在Shuffle区别的更多相关文章

随机推荐

热门专题