Spark-源码-SparkContext的初始化

Spark版本 1.3
SparkContext初始化流程

1.0 在我们的主类 main() 方法中经常会这么写
　　val conf = new SparkConf().setAppName("name").setMaster("local")
　　val sc = new SparkContext(conf)
　　conf 中保存的是Spark的参数
　　sc 是我们的Spark上下文...好无聊...
　　conf不再去看(里边都是对于参数的操作, 现阶段不看)
　　sc 从 SparkContext(config: SparkConf) 开始~

1.1 * 很重要：SparkContext是Spark提交任务到集群的入口
　　* 我们看一下SparkContext的主构造器
　　* 1.调用 createSparkEnv 方法创建 SparkEnv, 里面有一个非常重要的对象 ActorSystem
　　* 2.创建 TaskScheduler -> 根据提交任务的URL进行匹配 -> TaskSchedulerImpl -> SparkDeploySchedulerBackend(里面有两个Actor)
　　* 3.创建 DAGScheduler
　　* 4.taskScheduler.start()

1.2	private[spark] val env = createSparkEnv(conf, isLocal, listenerBus)

　　class SparkContext(config: SparkConf) extends Logging with ExecutorAllocationClient {

	// 调用 def createSparkEnv() 方法, 转到:1.4

	private[spark] def createSparkEnv(

		  	conf: SparkConf,

		  	isLocal: Boolean,

			listenerBus: LiveListenerBus): SparkEnv = {

		SparkEnv.createDriverEnv(conf, isLocal, listenerBus)

	}

	//创建一个后端调度器(schedulerBackend) 和 一个任务调度器(taskScheduler), 转到:1.5

	private[spark] var (schedulerBackend, taskScheduler) =

    	SparkContext.createTaskScheduler(this, master)

	// 通过 ActorSystem 创建了一个Actor，这个心跳是 Executors 和 DriverActor 的心跳

	private val heartbeatReceiver = env.actorSystem.actorOf(

    	Props(new HeartbeatReceiver(taskScheduler)), "HeartbeatReceiver")

	// 创建了一个DAGScheduler，以后用来把DAG切分成Stage

	@volatile private[spark] var dagScheduler: DAGScheduler = _

	try{

		dagScheduler = new DAGScheduler(this)

	}catch{...}

	// start TaskScheduler after taskScheduler sets DAGScheduler reference in DAGScheduler's constructor

	// 在DAG构造函数中为每个TaskScheduler设置DAGScheduler后, 启动taskScheduler(DAG源码分析, 详见后续文章) 转到:1.6

	taskScheduler.start()

	...

}

1.4

// SparkContext.createSparkEnv中调用了 SparkEnv.createDriverEnv

private[spark] def createDriverEnv(

	conf: SparkConf,

	isLocal: Boolean,

	listenerBus: LiveListenerBus,

	mockOutputCommitCoordinator: Option[OutputCommitCoordinator] = None): SparkEnv = {

	assert(conf.contains("spark.driver.host"), "spark.driver.host is not set on the driver!")

	assert(conf.contains("spark.driver.port"), "spark.driver.port is not set on the driver!")

	val hostname = conf.get("spark.driver.host")

	val port = conf.get("spark.driver.port").toInt

	//调用 create 方法 并传入一坨参数

	create(

		conf,

		SparkContext.DRIVER_IDENTIFIER,

		hostname,

		port,

		isDriver = true,

		isLocal = isLocal,

		listenerBus = listenerBus,

		mockOutputCommitCoordinator = mockOutputCommitCoordinator

	)

}

private def create(

	conf: SparkConf,

	executorId: String,

	hostname: String,

	port: Int,

	isDriver: Boolean,

	isLocal: Boolean,

	listenerBus: LiveListenerBus = null,

	numUsableCores: Int = 0,

	mockOutputCommitCoordinator: Option[OutputCommitCoordinator] = None): SparkEnv = {

	...

	// Create the ActorSystem for Akka and get the port it binds to.

	val (actorSystem, boundPort) = {

		val actorSystemName = if (isDriver) driverActorSystemName else executorActorSystemName

		// 利用AkkaUtils这个工具类创建ActorSystem

		AkkaUtils.createActorSystem(actorSystemName, hostname, port, conf, securityManager)

	}

	...

	// 最终将创建好的ActorSystem返回给SparkEnv

	// 回调步骤 new Spark() -> create() -> SparkEnv.createDriverEnv -> SparkContext.createSparkEnv()

	new SparkEnv(

		executorId,

		actorSystem,

		serializer,

		closureSerializer,

		cacheManager,

		mapOutputTracker,

		shuffleManager,

		broadcastManager,

		blockTransferService,

		blockManager,

		securityManager,

		httpFileServer,

		sparkFilesDir,

		metricsSystem,

		shuffleMemoryManager,

		outputCommitCoordinator,

		conf)

}

1.5

//SparkContext.createSparkEnv 中调用了 (schedulerBackend, taskScheduler) = SparkContext.createTaskScheduler(this, master)

/**

   * Create a task scheduler based on a given master URL.

   * Return a 2-tuple of the scheduler backend and the task scheduler.

   */

// 根据提交任务时指定的URL创建相应的TaskScheduler 关于TaskScheduler 转到:1.7

private def createTaskScheduler(sc: SparkContext,

    master: String): (SchedulerBackend, TaskScheduler) = {

	//模式匹配

	master match {

		// spark的StandAlone模式

    	case SPARK_REGEX(sparkUrl) =>

	        // 创建了一个TaskSchedulerImpl. 注: TaskScheduler是一个特质

	        val scheduler = new TaskSchedulerImpl(sc)

	        val masterUrls = sparkUrl.split(",").map("spark://" + _)

	        // 创建了一个SparkDeploySchedulerBackend(Spark后端部署调度器)

	        val backend = new SparkDeploySchedulerBackend(scheduler, sc, masterUrls)

	        // 调用initialize, 使用Spark后端部署调度器 初始化调度器

	        scheduler.initialize(backend)

	        (backend, scheduler)

	    ... // 其他模式

	}

}

1.6
DAGScheduler 简介

实现面向阶段调度的高级调度层。它计算每个作业的阶段DAG，跟踪哪些RDD和阶段输出具体化，并找到运行作业的最小计划。
然后，它将阶段作为TaskSets提交给在集群上运行它们的底层TaskScheduler实现。

除了提供阶段的DAG之外，此类还根据当前缓存状态确定运行每个任务的首选位置，并将这些位置传递给低级TaskScheduler。
此外，它处理由于shuffle输出文件丢失而导致的故障，在这种情况下可能需要重新提交旧阶段。在一个不是由随机文件丢失引
起的阶段内的故障由TaskScheduler处理，它将在取消整个阶段之前重试每个任务很多次。

以下是制作或查看此课程更改时使用的核对清单：
添加新数据结构时，请更新 `DAGSchedulerSuite.assertDataStructuresEmpty`以包含新结构。这将有助于捕获内存泄漏。

1.7
TaskScheduler简介

低级任务调度程序接口，目前由TaskSchedulerImpl专门实现。

该接口允许插入不同的任务调度程序。每个TaskScheduler都为单个SparkContext调度任务。

这些调度程序从DAGScheduler为每个阶段获取提交给它们的任务集，并负责将任务发送到集群，
运行它们，如果存在故障则重试，以及减轻落后者。他们将事件返回给DAGScheduler。

Spark-源码-SparkContext的初始化的更多相关文章

spark[源码]-sparkContext详解[一]
spark简述 sparkContext在Spark应用程序的执行过程中起着主导作用,它负责与程序和spark集群进行交互,包括申请集群资源.创建RDD.accumulators及广播变量等.spar ...
spark[源码]-sparkContext概述
SparkContext概述 sparkContext是所有的spark应用程序的发动机引擎,就是说你想要运行spark程序就必须创建一个,不然就没的玩了.sparkContext负责初始化很多东西, ...
Spark源码剖析 - SparkContext的初始化(二)_创建执行环境SparkEnv
2. 创建执行环境SparkEnv SparkEnv是Spark的执行环境对象,其中包括众多与Executor执行相关的对象.由于在local模式下Driver会创建Executor,local-cl ...
Spark源码剖析 - SparkContext的初始化(三)_创建并初始化Spark UI
3. 创建并初始化Spark UI 任何系统都需要提供监控功能,用浏览器能访问具有样式及布局并提供丰富监控数据的页面无疑是一种简单.高效的方式.SparkUI就是这样的服务. 在大型分布式系统中,采用 ...
Spark源码分析 – SparkContext
Spark源码分析之-scheduler模块这位写的非常好, 让我对Spark的源码分析, 变的轻松了许多这里自己再梳理一遍先看一个简单的spark操作, val sc = new SparkC ...
spark源码阅读--SparkContext启动过程
##SparkContext启动过程基于spark 2.1.0 scala 2.11.8 spark源码的体系结构实在是很庞大,从使用spark-submit脚本提交任务,到向yarn申请容器,启 ...
Apache Spark源码剖析
Apache Spark源码剖析(全面系统介绍Spark源码,提供分析源码的实用技巧和合理的阅读顺序,充分了解Spark的设计思想和运行机理) 许鹏著 ISBN 978-7-121-25420- ...
《Apache Spark源码剖析》
Spark Contributor,Databricks工程师连城,华为大数据平台开发部部长陈亮,网易杭州研究院副院长汪源,TalkingData首席数据科学家张夏天联袂力荐1.本书全面.系统地介绍了 ...
Spark 源码解析：TaskScheduler的任务提交和task最佳位置算法
上篇文章< Spark 源码解析 : DAGScheduler中的DAG划分与提交 >介绍了DAGScheduler的Stage划分算法. 本文继续分析Stage被封装成TaskSet, ...
Spark源码分析：多种部署方式之间的区别与联系（转）
原文链接:Spark源码分析:多种部署方式之间的区别与联系(1) 从官方的文档我们可以知道,Spark的部署方式有很多种:local.Standalone.Mesos.YARN.....不同部署方式的 ...

随机推荐

Daemon 自更新
NSTask *task = [[NSTask alloc] init]; [task setLaunchPath:@"usr/bin/dpkg"]; [task setArgum ...
Windows平台字符串完全指南
The Complete Guide to C++ Strings : The Complete Guide to C++ Strings, Part I - Win32 Character Enco ...
C/S与B/S架构的区别和优缺点
C/S 架构的概念 C/S是Client/Server,即客户端/服务器端架构,一种典型的两层架构. 客户端包含一个或多个在用户的电脑上运行的程序服务器端有两种,一种是数据库服务器端,客户端通过数据 ...
Azure 9 月新发布
亲爱的小伙伴们, 我们很高兴向您宣布以下新功能与相关调整,欢迎关注与使用. 1. SQL 数据库弹性池 2. 存储指标更新 3. SQL 数据库 P15 4. Azure 高级存储 5. Wosig ...
winform DataGridView 通用初始化
void DGV_Init() { //名称类型设备数累计转发次数累计转发数据数状态 ; i < ; i++) { DataGridViewTextBoxColumn dc = new ...
.NET部分知识点整理
.Net学习 Visual Studio2018 企业版:NJVYC-BMHX2-G77MM-4XJMR-6Q8QF 专业版:KBJFW-NXHK6-W4WJM-CRMQB-G3CDH 开发工具常用V ...
Vue2自定义指令改变DOM值后未刷新data中绑定属性的值
标签(空格分隔): Vue 自定义指令用于过滤输入框,只允许输入数字: Vue.directive('numberOnly', { bind: function (el, binding) { el. ...
团队合作之Scrum
CCSU小助手一:开发团队简介队名:瓜队组员:钟文兴.周畅.吉刘磊.唐仲勋宣言:We are a team at any time! 团队项目描述: 内容:“生活在长大”: 目标:为了方便对学 ...
Cloud Foundry Session Affinity(Sticky Session)的实现
会话保持(Session Affinity),有时又称粘滞会话(Sticky Sessions), 是负载均衡领域设计需要着力解决的重要问题之一,也是一个相对比较复杂的问题. 会话保持是指在负载均衡器 ...
【[TJOI2007]可爱的质数】
题目用一道板子题来复习一下\(bsgs\) \(bsgs\)用于求解形如 \[a^x\equiv b(mod\ p)\] 这样的高次不定方程由于费马小定理的存在,我们可是直接暴力扫一遍\(p\), ...

Spark-源码-SparkContext的初始化

Spark-源码-SparkContext的初始化的更多相关文章

随机推荐

热门专题