Spark-shell有两种使用方式：

1：直接Spark-shell

会启动一个SparkSubmit进程来模拟Spark运行环境，是一个单机版的。
2：Spark-shell --master Spark：//hadoop1:7077,hadoop2:7077,hadoop3:7077 --total-executor-cores 5 --executor-memory 5G

指定任务提交的集群路径在哪里。这就需要提前启动一个真实的Standalone集群。

可以指定多个master的地址，用逗号隔开。

如果没有指定--total-executor-cores 5 --executor-memory 5G，那么就会使用集群中所有可用的资源，没一个worker中都会启动executor。

不管哪种方式，只要启动完成后。

1/就初始化了一个SparkContext对象为SC，而在这个对象的源码中，
- 1.1/就创建一个SparkENV对象，里面创建一个SystemActor。
- 1.2/接着创建一个两个Actor：ClientActor和DriverActor。
  
  其中ClientActor就会根据刚刚的--master 来连接指定的集群
  
  在worker中会创建好那些运行程序的executor了。
2/同时也创建了一个SparkSQl对象，用于SparkSQl操作的。
3/最终会进入一个scala的交互界面中。

此时可以写通过RDD的transform和action的算子，最终通过action算子调用DAGSchudler对任务进行stage切分，然后通过TaskSchudler调用DriverActor将Stage下发到executor执行。

Spark-Submit的使用

用来提交在IDEA中编写并且打包成jar的包到集群中运行。
具体的提交过程，请看Spark源码分析的任务提交过程。

Spark-Submit --master spark://hadoop1:7077,hadoop2:7077 --executor-memory 5g --total-executor-cores 10 --class 主类路径 jar包的路径文件的输入路径文件的输出路径

Spark-shell和Spark-Submit的使用的更多相关文章

Spark学习进度-Spark环境搭建&Spark shell
Spark环境搭建下载包所需Spark包:我选择的是2.2.0的对应Hadoop2.7版本的,下载地址:https://archive.apache.org/dist/spark/spark-2. ...
大数据学习day18----第三阶段spark01--------0.前言（分布式运算框架的核心思想，MR与Spark的比较，spark可以怎么运行，spark提交到spark集群的方式）1. spark(standalone模式)的安装 2. Spark各个角色的功能 3.SparkShell的使用，spark编程入门（wordcount案例）
0.前言 0.1 分布式运算框架的核心思想(此处以MR运行在yarn上为例) 提交job时,resourcemanager(图中写成了master)会根据数据的量以及工作的复杂度,解析工作量,从而 ...
[Spark内核] 第36课：TaskScheduler内幕天机解密：Spark shell案例运行日志详解、TaskScheduler和SchedulerBackend、FIFO与FAIR、Task运行时本地性算法详解等
本課主題通过 Spark-shell 窥探程序运行时的状况 TaskScheduler 与 SchedulerBackend 之间的关系 FIFO 与 FAIR 两种调度模式彻底解密 Task 数据 ...
Spark shell的原理
Spark shell是一个特别适合快速开发Spark原型程序的工具,可以帮助我们熟悉Scala语言.即使你对Scala不熟悉,仍然可以使用这个工具.Spark shell使得用户可以和Spark集群 ...
Spark:使用Spark Shell的两个示例
Spark:使用Spark Shell的两个示例 Python 行数统计 ** 注意: **使用的是Hadoop的HDFS作为持久层,需要先配置Hadoop 命令行代码 # pyspark >& ...
Spark源码分析之Spark Shell（上）
终于开始看Spark源码了,先从最常用的spark-shell脚本开始吧.不要觉得一个启动脚本有什么东东,其实里面还是有很多知识点的.另外,从启动脚本入手,是寻找代码入口最简单的方法,很多开源框架,其 ...
Spark源码分析之Spark Shell（下）
继上次的Spark-shell脚本源码分析,还剩下后面半段.由于上次涉及了不少shell的基本内容,因此就把trap和stty放在这篇来讲述. 上篇回顾:Spark源码分析之Spark Shell(上 ...
【原创 Hadoop&Spark 动手实践 5】Spark 基础入门，集群搭建以及Spark Shell
Spark 基础入门,集群搭建以及Spark Shell 主要借助Spark基础的PPT,再加上实际的动手操作来加强概念的理解和实践. Spark 安装部署理论已经了解的差不多了,接下来是实际动手实 ...
[Spark Core] Spark Shell 实现 Word Count
0. 说明在 Spark Shell 实现 Word Count RDD (Resilient Distributed dataset), 弹性分布式数据集. 示意图 1. 实现 1.1 分步实现 ...
Spark Shell简单使用
基础 Spark的shell作为一个强大的交互式数据分析工具,提供了一个简单的方式学习API.它可以使用Scala(在Java虚拟机上运行现有的Java库的一个很好方式)或Python.在Spark目 ...

随机推荐

UniqueIdentifier 数据类型和 GUID 生成函数
UniqueIdentifier 数据类型用于存储GUID的值,占用16Byte. SQL Server将UniqueIdentifier存储为16字节的二进制数值,Binary(16),按照特定的格 ...
Java 8五大主要功能为开发者提供了哪些便利？
两年前当Java 8发布后,立即受到了业界的欢迎,因为它大大提高了Java的性能.它独特的卖点是,顾及了编程语言的每一个方面,包括JVM(Java虚拟机)和编译器,并且改良了其它帮助系统. Java是 ...
OpenSceneGraph in ActiveX by ActiveQt
OpenSceneGraph in ActiveX by ActiveQt eryar@163.com Abstract. Qt’s ActiveX and COM support allows Qt ...
MVC5 网站开发之九网站设置
网站配置一般用来保存网站的一些设置,写在配置文件中比写在数据库中要合适一下,因为配置文件本身带有缓存,随网站启动读入缓存中,速度更快,而保存在数据库中要单独为一条记录创建一个表,结构不够清晰,而且读写 ...
AES加密
package com.edu.hpu; import java.math.BigInteger; import java.security.MessageDigest; import java.se ...
Git初探--笔记整理和Git命令详解
几个重要的概念首先先明确几个概念: WorkPlace : 工作区 Index: 暂存区 Repository: 本地仓库/版本库 Remote: 远程仓库当在Remote(如Github)上面c ...
peer not authenticated的终极解决方案
一.前述使用httpclient发起https请求时,可能会遇到如下异常: javax.net.ssl.SSLPeerUnverifiedException: peer not authentica ...
iOS微信里打开app，Universal Links
这两天在弄分享,从第三方应用或者浏览器打开自己app的东西传统的方式是通过URL Scheme的方式,但是iOS9以后又出了新的更完美的方式Universal Links. 传统的URL Schem ...
VSCode调试go语言出现：exec: "gcc": executable file not found in %PATH%
1.问题描述由于安装VS15 Preview 5,搞的系统由重新安装一次:在用vscdoe编译go语言时,出现以下问题: # odbcexec: "gcc": executabl ...
编写高质量代码:改善Java程序的151个建议(第8章:异常___建议114~117)
建议114:不要在构造函数中抛出异常 Java异常的机制有三种: Error类及其子类表示的是错误,它是不需要程序员处理也不能处理的异常,比如VirtualMachineError虚拟机错误,Thre ...

Spark-shell和Spark-Submit的使用

Spark-shell有两种使用方式：

不管哪种方式，只要启动完成后。

Spark-Submit的使用

Spark-shell和Spark-Submit的使用的更多相关文章

随机推荐

热门专题