【Spark2.0源码学习】-1.概述

Spark作为当前主流的分布式计算框架，其高效性、通用性、易用性使其得到广泛的关注，本系列博客不会介绍其原理、安装与使用相关知识，将会从源码角度进行深度分析，理解其背后的设计精髓，以便后续在Spark使用以及设计类似产品提供相关经验，下面开始进入正题。

本系列博客将从集群各端点的设计原理、通信方式、启动流程，以及用户任务提交后，任务的集群加载、分解、调度的方式两个方面进行解读。

首先，从脚本开始

详见《【Spark2.0源码学习】-2.一切从脚本说起》

其次，在集群各端点的设计原理、通信方式、启动方面

Spark集群由若干节点构成，而每个节点都是可以接受与发送消息的RPC服务端点（终端，英文：Endpoint），根据责任的不同可以分为三类端点：Client、Master、Worker，三端调用关系：

Client: Spark任务节点，负责发布，查询，以及中止任务的相关进程的统称，Client是运行时有效进程，如果相关任务处理完成，对应的进程结束
Master: Spark管理节点，负责管理Worker进程，协调调度Client发布的任务处理，Master节点可以为多个，有且仅能有一个为acitvity状态，其他为standby状态
Worker: Spark工作节点，负责具体的任务执行工作

我们将在如下章节逐步介绍：

《【Spark2.0源码学习】-3.Endpoint模型介绍》

《【Spark2.0源码学习】-4.Master启动》

《【Spark2.0源码学习】-5.Worker启动》

《【Spark2.0源码学习】-6.Client启动》

最后，在任务的集群加载、分解、调度方面

基于三端模型，用户通过spark-submit提交或者运行spark-shell REPL，集群创建Driver，Driver加载Application，最后Application根据用户代码转化为RDD，RDD分解为Tasks，Executor执行Task等系列知识，整体交互蓝图如下：

(注：如果不能完全理解，可在阅读完相关章节后再回来理解)

Client运行时向Master发送启动驱动申请（发送RequestSubmitDriver指令）
Master调度可用Worker资源进行驱动安装（发送LaunchDriver指令）
Worker运行DriverRunner进行驱动加载，并向Master发送应用注册请求（发送RegisterApplication指令）
Master调度可用Worker资源进行应用的Executor安装（发送LaunchExecutor指令）
Executor安装完毕后向Driver注册驱动可用Executor资源（发送RegisterExecutor指令）
最后是运行用户代码时，通过DAGScheduler，TaskScheduler封装为可以执行的TaskSetManager对象
TaskSetManager对象与Driver中的Executor资源进行匹配，在队形的Executor中发布任务（发送LaunchTask指令）
TaskRunner执行完毕后，调用DriverRunner提交给DAGScheduler，循环7.直到任务完成

我们将在如下章节逐步介绍：

《【Spark2.0源码学习】-7.Driver与DriverRunner》

《【Spark2.0源码学习】-8.SparkContext与Application介绍》

《【Spark2.0源码学习】-9.Job提交与Task的拆分》

《【Spark2.0源码学习】-10.Task执行与回馈》

说明：由于Spark属于一个比较大的工程，时间有限，很多非关键点会选择点到即止，另外存在理解错误望理解与指正！

【Spark2.0源码学习】-1.概述的更多相关文章

spark2.0源码学习
[Spark2.0源码学习]-1.概述 [Spark2.0源码学习]-2.一切从脚本说起 [Spark2.0源码学习]-3.Endpoint模型介绍 [Spark2.0源码学习]-4.Master启动 ...
【Spark2.0源码学习】-2.一切从脚本说起
从脚本说起在看源码之前,我们一般会看相关脚本了解其初始化信息以及Bootstrap类,Spark也不例外,而Spark我们启动三端使用的脚本如下: %SPARK_HOME%/sbin/st ...
【Spark2.0源码学习】-3.Endpoint模型介绍
Spark作为分布式计算框架,多个节点的设计与相互通信模式是其重要的组成部分. 一.组件概览对源码分析,对于设计思路理解如下: RpcEndpoint: ...
【Spark2.0源码学习】-6.Client启动
Client作为Endpoint的具体实例,下面我们介绍一下Client启动以及OnStart指令后的额外工作一.脚本概览下面是一个举例: /opt/jdk1..0_79/bin/jav ...
【Spark2.0源码学习】-4.Master启动
Master作为Endpoint的具体实例,下面我们介绍一下Master启动以及OnStart指令后的相关工作一.脚本概览下面是一个举例: /opt/jdk1..0_79/ ...
【Spark2.0源码学习】-5.Worker启动
Worker作为Endpoint的具体实例,下面我们介绍一下Worker启动以及OnStart指令后的额外工作一.脚本概览下面是一个举例: /opt/jdk1..0_79/ ...
【Spark2.0源码学习】-9.Job提交与Task的拆分
在前面的章节Client的加载中,Spark的DriverRunner已开始执行用户任务类(比如:org.apache.spark.examples.SparkPi),下面我们开始针对于用 ...
【Spark2.0源码学习】-10.Task执行与回馈
通过上一节内容,DriverEndpoint最终生成多个可执行的TaskDescription对象,并向各个ExecutorEndpoint发送LaunchTask指令,本节内容将关注Exe ...
【Spark2.0源码学习】-7.Driver与DriverRunner
承接上一节内容,Client向Master发起RequestSubmitDriver请求,Master将DriverInfo添加待调度列表中(waitingDrivers),下面针对于Dri ...

随机推荐

python算法（一）
python算法(一) 一.求数x的因子 x=100 divisors=()#初始化空的元组 for i in range(1,x): if x%i==0: divisors=divisors+(i, ...
java基础：数组查询，同一数组一个元素最多出现两次
可扩展标记语言XML
XML简述 XML用于描述数据,是当前处理结构化文档信息的有力工具.与操作系统编程语言的开发平台无关,可以实现不同系统之间的数据交互. 结构 <?xml version="1.0&qu ...
算法模板——Dinic网络最大流 2
实现功能:同Dinic网络最大流 1 这个新的想法源于Dinic费用流算法... 在费用流算法里面,每次处理一条最短路,是通过spfa的过程中就记录下来,然后顺藤摸瓜处理一路于是在这个里面我的最大流 ...
1022: [SHOI2008]小约翰的游戏John
1022: [SHOI2008]小约翰的游戏John Time Limit: 1 Sec Memory Limit: 162 MBSubmit: 1322 Solved: 829[Submit][ ...
ST 单元测试之maven引入junit包
按照上篇博客,已经完成了mavne以及eclipse的安装配置,新建好了一个maven项目. 接下来打开项目,双击打开pom.xml,可以看到如下所示, 点击下方的pom.xml,然后添加如下代码,即 ...
机器学习基石 4 Feasibility of Learning
机器学习基石 4 Feasibility of Learning Learning is Impossible? 机器学习:通过现有的训练集 \(D\) 学习,得到预测函数 \(h(x)\) 使得它接 ...
Tomcat+Eclipse乱码问题解决方法
概述乱码问题是大家在日常开发过程中经常会遇到的问题,由于各自环境的不同,解决起来也费时费力,本文主要介绍一般性乱码问题的解决方法与步骤,开发工具采用Eclipse+Tomcat,统一设置项目编码UT ...
CDMA sid, nid, bid 含义解释
copyright@ celldb.cc SID 是系统识别码,每个地级市只有一个sid,是唯一的. NID是网络识别码,由各本地网管理,也就是由地级分公司分配.每个地级市可能有1到3个nid. BI ...
Meta http-equiv属性详解
http-equiv顾名思义,相当于http的文件头作用,它可以向浏览器传回一些有用的信息,以帮助正确和精确地显示网页内容,与之对应的属性值为content,content中的内容其实就是各个参数的变 ...

【Spark2.0源码学习】-1.概述

【Spark2.0源码学习】-1.概述的更多相关文章

随机推荐

热门专题