Spark系列(九)DAGScheduler工作原理

以wordcount为示例进行深入分析

1
33	) {
46	logInfo("Submitting " + tasks.size + " missing tasks from " + stage + " (" + stage.rdd + ")")
47	stage.pendingTasks ++= tasks
48	logDebug("New pending tasks: " + stage.pendingTasks)
49	// 对stage的task创建TaskSet对象，调用TaskScheduler的submitTasks()方法提交TaskSet
50	taskScheduler.submitTasks(
51	new TaskSet(tasks.toArray, stage.id, stage.newAttemptId(), stage.jobId, properties))
52	stage.latestInfo.submissionTime = Some(clock.getTimeMillis())
53	}
54
55	......................
56	}

getPreferredLocsInternal

功能：

计算每个task对应的partition最佳位置，从stage的最后一个rdd开始查找，看rdd的partition是否有被cache、chencjpoint,如果有那么task的最佳位置就被cache或者checkpoint的partition的位置

调用过程：

submitMissingTasks->getPreferredLocs->getPreferredLocsInternal

1	// 计算每个task对应的partition最佳位置
2	// 从stage的最后一个rdd开始查找，看rdd的partition是否有被cache、chencjpoint,
3	// 如果有那么task的最佳位置就被cache或者checkpoint的partition的位置
4	private def getPreferredLocsInternal(
5	rdd: RDD[_],
6	partition: Int,
7	visited: HashSet[(RDD[_],Int)])
8	: Seq[TaskLocation] =
9	{
10	// If the partition has already been visited, no need to re-visit.
11	// This avoids exponential path exploration. SPARK-695
12	if (!visited.add((rdd,partition))) {
13	// Nil has already been returned for previously visited partitions.
14	return Nil
15	}
16	// If the partition is cached, return the cache locations
17	// 寻找rdd是否被缓存
18	val cached = getCacheLocs(rdd)(partition)
19	if (!cached.isEmpty) {
20	return cached
21	}
22	// If the RDD has some placement preferences (as is the case for input RDDs), get those
23	// 寻找当前RDD是否被cachepoint
24	val rddPrefs = rdd.preferredLocations(rdd.partitions(partition)).toList
25	if (!rddPrefs.isEmpty) {
26	return rddPrefs.map(TaskLocation(_))
27	}
28	// If the RDD has narrow dependencies, pick the first partition of the first narrow dep
29	// that has any placement preferences. Ideally we would choose based on transfer sizes,
30	// but this will do for now.
31	// 递归调用自己寻找rdd的父rdd,检查对应的partition是否被缓存或者checkpoint
32	rdd.dependencies.foreach {
33	case n: NarrowDependency[_] =>
34	for (inPart <- n.getParents(partition)) {
35	val locs = getPreferredLocsInternal(n.rdd, inPart, visited)
36	if (locs != Nil) {
37	return locs
38	}
39	}
40	case _ =>
41	}
42	// 如果stage从最后一个rdd到最开始的rdd，partiton都没有被缓存或者cachepoint，
43	// 那么task的最佳位置(preferredLocs)为Nil
44	Nil
45	}

Spark系列(九)DAGScheduler工作原理的更多相关文章

Spark系列(十)TaskSchedule工作原理
工作原理图源码分析: 1.) 25 launchedTask = true 26 } 27 } catch { 28 ...
Spark系列(八)Worker工作原理
工作原理图源代码分析包名:org.apache.spark.deploy.worker 启动driver入口点:registerWithMaster方法中的case LaunchDriver ...
line-height系列——定义和工作原理总结
一.line-height的定义和工作原理总结 line-height的属性值: normal 默认设置合理的行间距. number 设置数字,此数字会与当前的字体尺寸相乘来设置行间距li ...
MySQL系列(九)--InnoDB索引原理
InnoDB在MySQL5.6版本后作为默认存储引擎,也是我们大部分场景要使用的,而InnoDB索引通过B+树实现,叫做B-tree索引.我们默认创建的索引就是B-tree索引,所以理解B-tree ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
49、Spark Streaming基本工作原理
一.大数据实时计算介绍 1.概述 Spark Streaming,其实就是一种Spark提供的,对于大数据,进行实时计算的一种框架.它的底层,其实,也是基于我们之前讲解的Spark Core的. 基本 ...
“Ceph浅析”系列之五——Ceph的工作原理及流程
本文将对Ceph的工作原理和若干关键工作流程进行扼要介绍.如前所述,由于Ceph的功能实现本质上依托于RADOS,因而,此处的介绍事实上也是针对RADOS进行.对于上层的部分,特别是RADOS GW和 ...
JSP JSP工作原理 JSP语法 JSP声明 JSP注释 JSP指令 jsp九大隐式/内置对象
1 什么是JSP 1)为什么说,Servlet是一个动态Web开发技术呢? Servlet是基于服务端的一种动态交互技术, HttpServletRequest表示客户端到服务端的 ...
4.Apache Spark的工作原理
Apache Spark的工作原理 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark ...

随机推荐

iOS ARC下dealloc过程及.cxx_destruct的探究
前言这次探索源自于自己一直以来对ARC的一个疑问,在MRC时代,经常写下面的代码: 1 2 3 4 5 6 7 8 9 - (void)dealloc { self.array = nil; ...
jQuery插件开发（转）
jQuery插件开发 - 其实很简单 [前言]jQuery已经被广泛使用,凭借其简洁的API,对DOM强大的操控性,易扩展性越来越受到web开发人员的喜爱,我在社区也发布了很多的jQuery插件,经常 ...
C++：类型转换
5.3 类型转换 5.3.1 系统预定义类型间的转换 1. 隐式转换: 例如: int x=5,y; y=3.5+x; //系统会自动先将int型的5转换为double型的5. ...
Android 自定义Android带图片和文字的ImageButton
经过分析,上述按钮效果实际上就是一个布局,一个最简单不过的垂直线性布局,上部分是一个ImageView,下部分是一个TextView,这个布局可点击.可设置监听. 我们首先要编写自己的ImageBut ...
opencv绘制灰度直方图
代码之一: #include <cv.h> #include <highgui.h> #pragma comment( lib, "cv.lib" ) #p ...
盘点PHP编程常见失误
概述:本文盘点PHP开发者在编码时,容易忽略或不注意引起的小失误与错误. 变量声明如果在一条语句中声明一个变量,如下所示:$var='value';编译器首先会求出语句右半部分的值,恰恰正是语句的这 ...
IS_ERR、PTR_ERR、ERR_PTR
最近在使用filp_open打开文件时遇到到一个问题,当打开一个并不存在的文件时,filp_open返回值值为0xfffffffe,而并不是0(NULL),这是因为内核对返回指针的函数做了特殊处理.内 ...
apk反编译(6)ProGuard 工具 android studio版官方教程[作用，配置，解混淆,优化示例]
ProGuard In this document Enabling ProGuard (Gradle Builds) Configuring ProGuard Examples Decoding O ...
HDU 1425 sort 【哈希入门】
题意:给出n个数,输出前m大的数和上一题一样,将输入的数加上一个极大地值作为地址 #include<iostream> #include<cstdio> #include&l ...
ti processor sdk linux am335x evm /bin/setup-targetfs-nfs.sh hacking
#!/bin/sh # # ti processor sdk linux am335x evm /bin/setup-targetfs-nfs.sh hacking # 说明: # 本文主要对TI的s ...

Spark系列(九)DAGScheduler工作原理

Spark系列(九)DAGScheduler工作原理的更多相关文章

随机推荐

热门专题