spark如何划分DAG视图

spark根据宽依赖进行DAG视图的划分。

1、窄依赖：每个父RDD的partition 最多被一个子RDD的 partition使用。

　　窄依赖分为两类：第一类是一对一的依赖关系，在Spark中用OneToOneDependency来表示父RDD与子RDD的依赖关系是一对一的依赖关系，如map、filter、join with inputs co-partitioned；第二类是范围依赖关系，在Spark中用RangeDependency表示，表示父RDD与子RDD的一对一的范围内依赖关系，如union。

2、宽依赖：每个父 RDD 的patition 都被多个子 RDD的 patition 使用。是一种会导致计算时产生 shuffle 操作的 RDD 操作。

3、DAG生成机制：DAG的目的就是对任务进行排队执行。

　　DAG在图论中指的是有向无环图，而在spark中，由于计算过程具有先后顺序，也就是说任务需要进行排队形成一个队列的任务集合，这个队列的任务集合就是DAG图。

　　DAG生成机制关键就是对stage的划分，划分stage的依据就是RDD的依赖关系，对于窄依赖，RDD之间的数据不需要进行shuffle，多个数据处理只需要在同一台机器的内存中就能完成计算，因此可以将其划分到同一个stage当中。而宽依赖，涉及到shuffle，必须等到父RDD完成计算，才能进行下一步计算，因此会在宽依赖处进行stage的切分。

　　在Spark中，DAG生成的流程关键在于回溯，在程序提交后，高层调度器将所有的RDD看成是一个Stage，然后对此Stage进行从后往前的回溯，遇到Shuffle就断开，遇到窄依赖，则归并到同一个Stage。等到所有的步骤回溯完成，便生成一个DAG图。

参考博客：https://blog.csdn.net/newchitu/article/details/92797090#一、窄依赖解析

spark如何划分DAG视图的更多相关文章

spark 中划分stage的思路
窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用,表现为一个父RDD的分区对应于一个子RDD的分区两个父RDD的分区对应于一个子RDD 的分区. 宽依赖指子RDD的每个分区都要依赖于父RD ...
spark[源码]-DAG调度器源码分析[二]
前言根据图片上的结构划分我们不难发现当rdd触发action操作之后,会调用SparkContext的runJob方法,最后调用的DAGScheduler.handleJobSubmitted方法完 ...
动态切换采用 CSplitterWnd 静态划分的视图布局（MFC）
标题读起来有些拗口,具体是什么情况,我们来看: 一.问题的提出一个采用MFC开发的软件,其窗体视图采用CSplitterWnd三分,效果如下图所示: 图1 软件的默认视图布局该MFC开发的软件功能 ...
spark streaming(2) DAG静态定义及DStream,DStreamGraph
DAG 中文名有向无环图.它不是spark独有技术.它是一种编程思想 ,甚至于hadoop阵营里也有运用DAG的技术,比如Tez,Oozie.有意思的是,Tez是从MapReduce的基础上深化而来的 ...
用实例说明Spark stage划分原理
注意:此文的stage划分有错,stage的划分是以shuffle操作作为边界的,可以参考<spark大数据处理技术>第四章page rank例子! 参考:http://litaotao. ...
Spark之RDD依赖关系及DAG逻辑视图
RDD依赖关系为成两种:窄依赖(Narrow Dependency).宽依赖(Shuffle Dependency).窄依赖表示每个父RDD中的Partition最多被子RDD的一个Partition ...
spark DAG 笔记
DAG,有向无环图,Directed Acyclic Graph的缩写,常用于建模. Spark中使用DAG对RDD的关系进行建模,描述了RDD的依赖关系,这种关系也被称之为lineage,RDD的依 ...
spark中的RDD以及DAG
今天,我们就先聊一下spark中的DAG以及RDD的相关的内容 1.DAG:有向无环图:有方向,无闭环,代表着数据的流向,这个DAG的边界则是Action方法的执行 2.如何将DAG切分stage,s ...
【Spark工作原理】stage划分原理理解
Job->Stage->Task开发完一个应用以后,把这个应用提交到Spark集群,这个应用叫Application.这个应用里面开发了很多代码,这些代码里面凡是遇到一个action操作, ...

随机推荐

【C++札记】const关键字
C++中const关键字无处不在,我这里做下汇总,作为工具文章方便翻阅. 一:修饰数据成员修饰的成员一单定义初始化后不能再进行修改,如: const int a = 10; a =20; //重新赋 ...
isset和empty，isset和unset,__isset和__unset
1.isset() 用来检测变量是否存在,如果变量存在,且值不等于零,返回ture empty() 用来检测是否为空,如果变量值值为"".0."0".NULL. ...
hyper-v安装windows7
win7镜像下载地址 http://msdn.itellyou.cn/ 该网站都是微软系列的正规软件非常好用在hyper-v 虚拟机安装windows系统时,到百度搜索了几个iso 都不好用到h ...
js加减乘除函数
经常用到算数的时候,可以直接用:// 除法函数function accDiv(arg1, arg2) { var t1 = 0, t2 = 0, r1, r2; try { t1 = arg1.toS ...
serviceBehaviors_dataContractSerializer_maxItemsInObjectGraph 关键**Behavior
<behaviors> <serviceBehaviors> <behavior name="STHotel.Product.WCFService.HotelP ...
前端开发 vue，angular，react框架对比1
转载自:https://www.cnblogs.com/hubgit/p/6633214.html 首先,我们先了解什么是MVX框架模式? MVX框架模式:MVC+MVP+MVVM 1.MVC:Mod ...
【转载】 C#中List集合使用First()方法获取第一个元素
在C#的List集合操作过程中,如果要获取List集合中的第一个元素对象,则一般会先通过获取到list[0]这种方式来获取第一个元素.其实在List集合中提供了获取最后一个元素的First()方法,调 ...
python3基础之“小练习（3）”
(二十四)将字符串"A screaming comes across the sky."中所有的"s"字符替换为美元符号. # a="A scream ...
linux设置网卡速率
ethtool # ethtool ethX //查询ethX网口基本设置 # ethtool –h //显示ethtool的命令帮助(help) # ethtool –i ethX //查询ethX ...
如何打包ANE
来源:http://blog.sina.com.cn/s/blog_6471e1bb01012aql.html 首先先说一下打包ANE必须的部件: 1.ActionScript扩展库SWC 2.本机扩 ...

spark如何划分DAG视图

spark如何划分DAG视图的更多相关文章

随机推荐

热门专题