【Spark2.0源码学习】-6.Client启动

Client作为Endpoint的具体实例，下面我们介绍一下Client启动以及OnStart指令后的额外工作

一、脚本概览

下面是一个举例：

/opt/jdk1..0_79/bin/java

-cp /opt/spark-2.1./conf/:/opt/spark-2.1./jars/*:/opt/hadoop-2.6.4/etc/hadoop/

-Xmx1g

-XX:MaxPermSize=256m

org.apache.spark.deploy.SparkSubmit

--master spark://zqh:7077

--class org.apache.spark.examples.SparkPi

../examples/jars/spark-examples_2.11-2.1.0.jar 10

二、SparkSubmit启动流程

SparkSubmit的启动流程如下：

SparkSubmitArguments：
- 解析Client启动的参数
- - --name --master --class --deploy-mode
  - --num-executors --executor-cores --total-executor-cores --executor-memory
  - --driver-memory --driver-cores --driver-class-path --driver-java-options --driver-library-path
  - --properties-file
  - --kill --status --supervise --queue
  - --files --py-files
  - --archives --jars --packages --exclude-packages --repositories
  - --conf（解析存入Map : sparkProperties中）
  - --proxy-user --principal --keytab --help --verbose --version --usage-error
- 合并--properties-file（没有配置默认为conf/spark-defaults.conf）文件配置项(不在--conf中的配置 )至sparkProperties
- 删除sparkProperties中不以spark.开头的配置项目
- 启动参数为空的配置项从sparkProperties中合并
- 根据action(SUBMIT,KILL,REQUEST_STATUS)校验各自必须参数是否有值
Case Submit：
- 获取childMainClass
- - [--deploy-mode] = clent(默认)：用户任务启动类mainClass（--class）
  - [--deploy-mode] = cluster & [--master] = spark:* & useRest： org.apache.spark.deploy.rest.RestSubmissionClient
  - [--deploy-mode] = cluster & [--master] = spark:* & !useRest : org.apache.spark.deploy.Client
  - [--deploy-mode] = cluster & [--master] = yarn： org.apache.spark.deploy.yarn.Client
  - [--deploy-mode] = cluster & [--master] = mesos:*： org.apache.spark.deploy.rest.RestSubmissionClient
- 获取childArgs(子运行时对应命令行组装参数)
- - [--deploy-mode] = cluster & [--master] = spark:* & useRest：包含primaryResource与mainClass
  - [--deploy-mode] = cluster & [--master] = spark:* & !useRest : 包含--supervise --memory --cores launch 【childArgs】, primaryResource, mainClass
  - [--deploy-mode] = cluster & [--master] = yarn：--class --arg --jar/--primary-py-file/--primary-r-file
  - [--deploy-mode] = cluster & [--master] = mesos:*： primaryResource
- 获取childClasspath
- - [--deploy-mode] = clent：读取--jars配置，与primaryResource信息（../examples/jars/spark-examples_2.11-2.1.0.jar）
- 获取sysProps
- - 将sparkPropertie中的所有配置封装成新的sysProps对象，另外还增加了一下额外的配置项目
- 将childClasspath通过当前的类加载器加载中
- 将sysProps设置到当前jvm环境中
- 最终反射执行childMainClass，传参为childArgs

下面仅针对于org.apache.spark.deploy.Client进行解读

三、Client启动流程

Client的启动流程如下：

SparkConf：加载key以spark.开头的系统属性（Utils.getSystemProperties）
ClientArguments：
- 解析Client启动的参数
- - --cores -c --memory -m --supervise -s --verbose -v
  - launch jarUrl master mainClass
  - kill master driverId
- 将--properties-file（没有配置默认为conf/spark-defaults.conf）中spark.开头的配置存入SparkConf
- 在没有配置情况下，cores默认为1核
- 在没有配置情况下，memory默认为1G
- NettyRpcEnv中的内部处理遵循RpcEndpoint统一处理，这里不再赘述
最终守护进程会一直存在等待结束信awaitTermination

四、Client的OnStart监听事件

Client的启动完成后异步执行工作如下：

如果是发布任务（case launch）,Client创建一个DriverDescription,并向Master发起RequestSubmitDriver请求
- Command中的mainClass为： org.apache.spark.deploy.worker.DriverWrapper
- Command中的arguments为： Seq("{{WORKER_URL}}", "{{USER_JAR}}", driverArgs.mainClass)
Master接受RequestSubmitDriver请求后，将DriverDescription封装为一个DriverInfo，
- startTime与submitDate都为当前时间
- driverId格式为：driver-yyyyMMddHHmmss-nextId,nextId是全局唯一的
Master持久化DriverInfo，并加入待调度列表中（waitingDrivers），触发公共资源调度逻辑（公共资源调度详解见下一节内容）
Master公共资源调度结束后，返回SubmitDriverResponse给Client

五、RpcMessage处理(receiveAndReply)

消息实例	发起方	接收方	说明

六、OneWayMessage处理(receive)

消息实例	发起方	接收方	说明
SubmitDriverResponse	Master	Client
KillDriverResponse		Client

【Spark2.0源码学习】-6.Client启动的更多相关文章

【Spark2.0源码学习】-1.概述
Spark作为当前主流的分布式计算框架,其高效性.通用性.易用性使其得到广泛的关注,本系列博客不会介绍其原理.安装与使用相关知识,将会从源码角度进行深度分析,理解其背后的设计精髓,以便后续 ...
spark2.0源码学习
[Spark2.0源码学习]-1.概述 [Spark2.0源码学习]-2.一切从脚本说起 [Spark2.0源码学习]-3.Endpoint模型介绍 [Spark2.0源码学习]-4.Master启动 ...
【Spark2.0源码学习】-2.一切从脚本说起
从脚本说起在看源码之前,我们一般会看相关脚本了解其初始化信息以及Bootstrap类,Spark也不例外,而Spark我们启动三端使用的脚本如下: %SPARK_HOME%/sbin/st ...
【Spark2.0源码学习】-3.Endpoint模型介绍
Spark作为分布式计算框架,多个节点的设计与相互通信模式是其重要的组成部分. 一.组件概览对源码分析,对于设计思路理解如下: RpcEndpoint: ...
【Spark2.0源码学习】-8.SparkContext与Application介绍
在前面的内容,我们针对于RpcEndpoint启动以及RpcEndpoint消息处理机制进行了详细的介绍,在我们的大脑里,基本上可以构建Spark各节点的模样.接下来的章节将会从Sp ...
【Spark2.0源码学习】-4.Master启动
Master作为Endpoint的具体实例,下面我们介绍一下Master启动以及OnStart指令后的相关工作一.脚本概览下面是一个举例: /opt/jdk1..0_79/ ...
【Spark2.0源码学习】-5.Worker启动
Worker作为Endpoint的具体实例,下面我们介绍一下Worker启动以及OnStart指令后的额外工作一.脚本概览下面是一个举例: /opt/jdk1..0_79/ ...
【Spark2.0源码学习】-9.Job提交与Task的拆分
在前面的章节Client的加载中,Spark的DriverRunner已开始执行用户任务类(比如:org.apache.spark.examples.SparkPi),下面我们开始针对于用 ...
ThinkPHP5.0源码学习之框架启动流程
ThinkPHP5框架的启动流程图如下: ThinkPHP5的启动流程按照文件分为三步: 1.请求入口(public/index.php) 2.框架启动(thinkphp/start.php) 3.应 ...

随机推荐

“this kernel requires an x86-64 CPU, but only detects an i686 CPU, unable to boot” 问题解决
1. 问题描述: 在Virtual Box上安装 Ubuntu 系统时出现错误(如题),VIrtual Box 上也没有64位操作系统的选项 2.原因分析: (1) 可能 BIOS 的 Virtua ...
MySQL学习笔记(四)—存储过程
一.概述存储过程是数据库定义的一些SQL语句的集合,然后直接调用这些存储过程和函数来执行已经定义好的SQL语句.存储过程可以避免开发人员重复的编写相同的SQL语句,而且存储过程是在MySq ...
JavaWeb总结(三)—JSP
一.JSP简介 1.基本认识 (1)JSP页面是由HTML语句和嵌套在其中的Java代码组成的一个普通文本文件,JSP 页面的文件扩展名必须为.jsp. (2)在JSP页面中编写的Java代码需要嵌套 ...
Learning to Rank简介
Learning to Rank是采用机器学习算法,通过训练模型来解决排序问题,在Information Retrieval,Natural Language Processing,Data Mini ...
WebGL 创建和初始化着色器过程
1.编译GLSL ES代码,创建和初始化着色器供WebGL使用.这些过程一般分为7个步骤: 创建着色器对象(gl.createBuffer()); 向着色器对象中填充着色器程序的源代码(gl.shad ...
C# SMTP发送邮件
public void SendMail() { MailMessage mail = new MailMessage(); mail.From = new MailAddress("fro ...
Python3.5爬虫统计AcFun所有视频,并按各个类别进行Top100排序展示
前(b)言(b): 前段时间对Python产生了浓厚的兴趣,所以决定入门学习了1个多月,后来某时我需要对tomcat做一个压力测试,于是我想到了用Python写一个压力测试的脚本吧!最后捣鼓出了一个脚 ...
sql server 数值的四舍五入
sql中的四舍五入通常会有round 和cast( …… as decimal())两种方式: 个人建议使用cast 方式: 方式1: 经过试验,同样都可以做到四舍五入,但round如下实例1会报 ...
linux 线程编程详解
1.线程的概念: 线程和进程有一定的相似性,通常称为轻量级的进程同一进程中的多条线程将共享该进程中的全部系统资源,如虚拟地址空间,文件描述符和信号处理等等.但同一进程中的多个线程都有自身控制流 (它 ...
浅谈虚方法（virtual）
虚方法理解:从字面意思来讲,"虚",可有可无,子类对父类的某种方法的重写,可以重写,也可以不重写. 虚方法,顾名思义(装个13),就是某种方法. 用法:public virtua ...

【Spark2.0源码学习】-6.Client启动

【Spark2.0源码学习】-6.Client启动的更多相关文章

随机推荐

热门专题