【Spark2.0源码学习】-6.Client启动
Client作为Endpoint的具体实例,下面我们介绍一下Client启动以及OnStart指令后的额外工作
/opt/jdk1..0_79/bin/java
-cp /opt/spark-2.1./conf/:/opt/spark-2.1./jars/*:/opt/hadoop-2.6.4/etc/hadoop/
-Xmx1g
-XX:MaxPermSize=256m
org.apache.spark.deploy.SparkSubmit
--master spark://zqh:7077
--class org.apache.spark.examples.SparkPi
../examples/jars/spark-examples_2.11-2.1.0.jar 10

- SparkSubmitArguments:
- 解析Client启动的参数
- --name --master --class --deploy-mode
- --num-executors --executor-cores --total-executor-cores --executor-memory
- --driver-memory --driver-cores --driver-class-path --driver-java-options --driver-library-path
- --properties-file
- --kill --status --supervise --queue
- --files --py-files
- --archives --jars --packages --exclude-packages --repositories
- --conf(解析存入Map : sparkProperties中)
- --proxy-user --principal --keytab --help --verbose --version --usage-error
- 合并--properties-file(没有配置默认为conf/spark-defaults.conf)文件配置项(不在--conf中的配置 )至sparkProperties
- 删除sparkProperties中不以spark.开头的配置项目
- 启动参数为空的配置项从sparkProperties中合并
- 根据action(SUBMIT,KILL,REQUEST_STATUS)校验各自必须参数是否有值
- Case Submit:
- 获取childMainClass
- [--deploy-mode] = clent(默认):用户任务启动类mainClass(--class)
- [--deploy-mode] = cluster & [
--master]
= spark:* & useRest: org.apache.spark.deploy.rest.RestSubmissionClient - [--deploy-mode] = cluster & [
--master]
= spark:* & !useRest : org.apache.spark.deploy.Client - [--deploy-mode] = cluster & [
--master]
= yarn: org.apache.spark.deploy.yarn.Client - [--deploy-mode] = cluster & [
--master]
= mesos:*: org.apache.spark.deploy.rest.RestSubmissionClient
- 获取childArgs(子运行时对应命令行组装参数)
- [--deploy-mode] = cluster & [
--master]
= spark:* & useRest: 包含primaryResource与mainClass - [--deploy-mode] = cluster & [
--master]
= spark:* & !useRest : 包含--supervise --memory --cores launch 【childArgs】, primaryResource, mainClass - [--deploy-mode] = cluster & [
--master]
= yarn:--class --arg --jar/--primary-py-file/--primary-r-file - [--deploy-mode] = cluster & [
--master]
= mesos:*: primaryResource
- [--deploy-mode] = cluster & [
- 获取childClasspath
- [--deploy-mode] = clent:读取--jars配置,与primaryResource信息(../examples/jars/spark-examples_2.11-2.1.0.jar)
- 获取sysProps
- 将sparkPropertie中的所有配置封装成新的sysProps对象,另外还增加了一下额外的配置项目
- 将childClasspath通过当前的类加载器加载中
- 将sysProps设置到当前jvm环境中
- 最终反射执行childMainClass,传参为childArgs

- SparkConf:加载key以spark.开头的系统属性(Utils.getSystemProperties)
- ClientArguments:
- 解析Client启动的参数
- --cores -c --memory -m --supervise -s --verbose -v
- launch jarUrl master mainClass
- kill master driverId
- 将--properties-file(没有配置默认为conf/spark-defaults.conf)中spark.开头的配置存入SparkConf
- 在没有配置情况下,cores默认为1核
- 在没有配置情况下,memory默认为1G
- NettyRpcEnv中的内部处理遵循RpcEndpoint统一处理,这里不再赘述
- 最终守护进程会一直存在等待结束信awaitTermination

- 如果是发布任务(case launch),Client创建一个DriverDescription,并向Master发起RequestSubmitDriver请求
- Command中的mainClass为: org.apache.spark.deploy.worker.DriverWrapper
- Command中的arguments为: Seq("{{WORKER_URL}}", "{{USER_JAR}}", driverArgs.mainClass)
- Master接受RequestSubmitDriver请求后,将DriverDescription封装为一个DriverInfo,
- startTime与submitDate都为当前时间
- driverId格式为:driver-yyyyMMddHHmmss-nextId,nextId是全局唯一的
- Master持久化DriverInfo,并加入待调度列表中(waitingDrivers),触发公共资源调度逻辑(公共资源调度详解见下一节内容)
- Master公共资源调度结束后,返回SubmitDriverResponse给Client
消息实例 | 发起方 | 接收方 | 说明 |
消息实例 | 发起方 | 接收方 | 说明 |
SubmitDriverResponse | Master | Client | |
KillDriverResponse | Client |
【Spark2.0源码学习】-6.Client启动的更多相关文章
- 【Spark2.0源码学习】-1.概述
Spark作为当前主流的分布式计算框架,其高效性.通用性.易用性使其得到广泛的关注,本系列博客不会介绍其原理.安装与使用相关知识,将会从源码角度进行深度分析,理解其背后的设计精髓,以便后续 ...
- spark2.0源码学习
[Spark2.0源码学习]-1.概述 [Spark2.0源码学习]-2.一切从脚本说起 [Spark2.0源码学习]-3.Endpoint模型介绍 [Spark2.0源码学习]-4.Master启动 ...
- 【Spark2.0源码学习】-2.一切从脚本说起
从脚本说起 在看源码之前,我们一般会看相关脚本了解其初始化信息以及Bootstrap类,Spark也不例外,而Spark我们启动三端使用的脚本如下: %SPARK_HOME%/sbin/st ...
- 【Spark2.0源码学习】-3.Endpoint模型介绍
Spark作为分布式计算框架,多个节点的设计与相互通信模式是其重要的组成部分. 一.组件概览 对源码分析,对于设计思路理解如下: RpcEndpoint: ...
- 【Spark2.0源码学习】-8.SparkContext与Application介绍
在前面的内容,我们针对于RpcEndpoint启动以及RpcEndpoint消息处理机制进行了详细的介绍,在我们的大脑里,基本上可以构建Spark各节点的模样.接下来的章节将会从Sp ...
- 【Spark2.0源码学习】-4.Master启动
Master作为Endpoint的具体实例,下面我们介绍一下Master启动以及OnStart指令后的相关工作 一.脚本概览 下面是一个举例: /opt/jdk1..0_79/ ...
- 【Spark2.0源码学习】-5.Worker启动
Worker作为Endpoint的具体实例,下面我们介绍一下Worker启动以及OnStart指令后的额外工作 一.脚本概览 下面是一个举例: /opt/jdk1..0_79/ ...
- 【Spark2.0源码学习】-9.Job提交与Task的拆分
在前面的章节Client的加载中,Spark的DriverRunner已开始执行用户任务类(比如:org.apache.spark.examples.SparkPi),下面我们开始针对于用 ...
- ThinkPHP5.0源码学习之框架启动流程
ThinkPHP5框架的启动流程图如下: ThinkPHP5的启动流程按照文件分为三步: 1.请求入口(public/index.php) 2.框架启动(thinkphp/start.php) 3.应 ...
随机推荐
- Mac 自定义sublime在浏览器中打开的快捷键/win系统理论通用
安装"view in browser"官方版的说明:(前提是得先安装package control插件) 1.通过"ctrl+shift+p"打开命令面板 2. ...
- 在Selenium Webdriver中使用XPath Contains、Sibling函数定位
前言 在一般情况下,我们通过简单的xpath即可定位到目标元素,但对于一些既没id又没name,而且其他属性都是动态的情况就很难通过简单的方式进行定位了. 在这种情况下,我们需要使用xpath1.0内 ...
- mysql 分析3使用分析sql 性能 show profiles ;
show variables like '%profiling%'; 查看状态 查看时间去哪了``` set profiling=1;// 打开 show profiles; 查看执行过的 ...
- JavaScript高级程序设计---学习笔记(四)
1.全局变量不能通过delete操作符删除,而直接在window对象上定义的属性可以. var age = 29; window.color = "red"; delete age ...
- Hadoop之RPC简单使用(远程过程调用协议)
一.RPC概述 RPC是指远程过程调用,也就是说两台不同的服务器(不受操作系统限制),一个应用部署在Linux-A上,一个应用部署在Windows-B或Linux-B上,若A想要调用B上的某个方法me ...
- 纯JS实现图片验证码功能并兼容IE6-8
最近要搞一个图片验证码功能,但是又不想自己写后台代码.于是自己准备搞一个纯前端的验证码功能,于是网上搜索了一下,找到一个插件gVerify.js,简单好用,实现完美.不过后面接到说要兼容IE8,想想也 ...
- phpcms课堂笔记
获取父分类下面的子分类 {loop subcat(77) $k $v}{php $subcatid[] = $k;}{/loop}<?php $subcatid = implode(',', $ ...
- HTTP上传 文件上传 图片上传 HTTP上传原理 文件上传原理 图片上传原理
1.概述 在最初的http协议中,没有上传文件方面的功能.rfc1867(http://www.ietf.org/rfc/rfc1867.txt )为http协议添加了这个功能.浏览器按照此规范将用户 ...
- 读书笔记 effctive c++ Item 52 如果你实现了placement new,你也要实现placement delete
1. 调用普通版本的operator new抛出异常会发生什么? Placement new和placement delete不是C++动物园中最常遇到的猛兽,所以你不用担心你对它们不熟悉.当你像下面 ...
- 仿QQ空间动态界面分享
先看看效果: 用极少的代码实现了 动态详情 及 二级评论 的 数据获取与处理 和 UI显示与交互,并且高解耦.高复用.高灵活. 动态列表界面MomentListFragment支持 下拉刷新与上拉加载 ...