spark-shell启动集群

使用spark-shell 启动spark集群时的流程简析：

spark-shell->spark-submit->spark-class

在sprk-class中根据条件会从不同的入口启动application。

从SparkSubmitDriverBootstrapper启动时 conf/spark-defaults.conf文件必须存在，通过修改SPARK_PRINT_LAUNCH_COMMAND的值可以查看详细的Spark Command

SparkSubmitDriverBootstrapper 主要是为了避免在脚本中处理复杂的的properties文件。其中进行了运行环境所需的参数的配置，利用这些参数生成了command，同时开启进程 process执行命令，对于process的输入输出进行了重定向。通过配置SPARK_PRINT_LAUNCH_COMMAND环境变量可以查看生成的command。

SparkSubmitArguments用于解析和封装从spark-submit脚本获得参数

其中：
getPropertiesFromFile(file: File)用于属性的配置文件
parseOpts 解析参数
mergeSparkProperties 根据读取的properties对未赋值的进行赋值
checkRequiredArguments 确保必要的字段存在

SparkSubmit是启动一个application的入口主要有createLaunchEnv和launch两个方法，在launch中会通过反射调用mianclass（eg. 上如中的org.apache.spark.repl.Main），在SparkSubmit中会根据不同的clusterManger和deployMode选择不同的MainClass。

在org.apache.spark.repl.Main中的Main方法调用process生成一个新的 new Scala compiler，在这个过程中会调用SprkILoopInit.scala中的initializeSpark方法用于最终生成sc，从而在REPL中使用。

spark-shell启动集群的更多相关文章

搭建Spark高可用集群
Spark简介官网地址:http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎. 从右侧最后一条新闻看,Spark也用于AI人工智能 sp ...
spark教程(一)-集群搭建
spark 简介建议先阅读我的博客大数据基础架构 spark 一个通用的计算引擎,专门为大规模数据处理而设计,与 mapreduce 类似,不同的是,mapreduce 把中间结果写入 hdfs ...
Spark在Hadoop集群上的配置(spark-1.1.0-bin-hadoop2.4)
运行Spark服务,需要在每个节点上部署Spark. 可以先从主节点上将配置修改好,然后把Spark直接scp到其他目录. 关键配置修改conf/spark-env.sh文件: export JAV ...
Spark高可用集群搭建
Spark高可用集群搭建 node1 node2 node3 1.node1修改spark-env.sh,注释掉hadoop(就不用开启Hadoop集群了),添加如下语句 export ...
spark完全分布式集群搭建
最近学习Spark,因此想把相关内容记录下来,方便他人参考,也方便自己回忆吧 spark开发环境的介绍资料很多,大同小异,很多不能一次配置成功,我以自己的实际操作过程为准,详细记录下来. 1.基本运行 ...
Spark on Yarn 集群运行要点
实验版本:spark-1.6.0-bin-hadoop2.6 本次实验主要是想在已有的Hadoop集群上使用Spark,无需过多配置 1.下载&解压到一台使用spark的机器上即可 2.修改配 ...
基于 ZooKeeper 搭建 Spark 高可用集群
一.集群规划二.前置条件三.Spark集群搭建 3.1 下载解压 3.2 配置环境变量 3.3 集群配置 3.4 安装包分发四.启 ...
Spark —— 高可用集群搭建
一.集群规划这里搭建一个3节点的Spark集群,其中三台主机上均部署Worker服务.同时为了保证高可用,除了在hadoop001上部署主Master服务外,还在hadoop002和hadoop00 ...
Spark学习之路（七）—— 基于ZooKeeper搭建Spark高可用集群
一.集群规划这里搭建一个3节点的Spark集群,其中三台主机上均部署Worker服务.同时为了保证高可用,除了在hadoop001上部署主Master服务外,还在hadoop002和hadoop00 ...
Spark 系列（七）—— 基于 ZooKeeper 搭建 Spark 高可用集群
一.集群规划这里搭建一个 3 节点的 Spark 集群,其中三台主机上均部署 Worker 服务.同时为了保证高可用,除了在 hadoop001 上部署主 Master 服务外,还在 hadoop0 ...

随机推荐

安装Node.js
1.window下安装Node.js 安装git,方便使用命令行. 网址:http://www.git-scm.com/download/ 下载后直接安装即可接着安装Node.js https:// ...
使Asp.net WebApi支持JSONP和Cors跨域访问
1.服务端处理同源策略(Same Origin Policy)的存在导致了“源”自A的脚本只能操作“同源”页面的DOM,“跨源”操作来源于B的页面将会被拒绝.同源策略以及跨域资源共享在大部分情况下针 ...
arcmap从excel坐标数据生成点shp文件
概述今天试图在ArcMap中将excel数据转成点文件,在"Display XY Data"的时候,无法选择X,Y字段,很是纳闷,原来Excel中列的格式是文本,导致无法选择.有 ...
spring-security 登陆认证之初次探究
首先,希望还对 spring-security框架完全不懂的新手下载下Git源码. 引入到项目中.这个短文就是边看源码边聊的.也会启动下项目验证自己的推想. 一.登陆认证的登陆配置项 <for ...
plsql编程中游标的使用
游标(Cursor):用来查询数据库,获取记录集合(结果集)的指针,可以让开发者一次访问一行结果集,在每条结果集上作操作. oracle中显示使用游标一般要包含以下5个步骤: 声明一些变量以便存储从游 ...
java.lang.NoSuchMethodError: com.google.common.collect.Maps.newConcurrentMap()Ljava/util/concurrent/Concurren‌tMap;
在storm启动topo的时候,报错: java.lang.NoSuchMethodError: com.google.common.collect.Maps.newConcurrentMap()Lj ...
cocos2dx SpriteBatchNode 精灵的渲染优化类
用处是减少对精灵的渲染次数,用法如下 SpriteFrameCache::getInstance()->addSpriteFramesWithFile("person.plist&qu ...
ZOJ 1642
题意:有两个字符串,每个串由n个字符组成,每个字符有一个价值,Roy每次指定串2中的一个字符,他的得分增加的值为这个字符的价值,然后把两个串中这个字符前面的那部分(包括这个字符)删掉,重复进行这样的操 ...
JSONP的原理
JSONP的原理 JSONP的最基本的原理是:动态添加一个<script>标签,而script标签的src属性是没有跨域的限制的. <script type="text/j ...
会话控制session,cookie(0521)
简单介绍: 一.什么是session? 1. 定义: Session,在计算机中,尤其是在网络应用中,称为“会话”.在计算机专业术语中,Session是指一个终端用户与交互系统进行通信的时间间隔,通常 ...

spark-shell启动集群

spark-shell启动集群的更多相关文章

随机推荐

热门专题