spark提交模式

spark基本的提交语句：

./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=<value>\ ... # other options <application-jar> \ [application-arguments]

参数的含义:

--class: 主函数所在的类。
--master: master的url，后面会解释 (e.g. spark://23.195.26.187:7077)
--deploy-mode: 部署driver在本地还是集群的一个work节点上，这也是client模式与cluster模式的区别。默认是client的模式。
--conf:用 key=value形式指定参数，如果包含空格那么要用双引号引起来，例如“key=value”
application-jar:jar包的路径.该路径必须在集群内全局可见。例如： hdfs:// path 或者 file:// 这个path必须是所有节点都存在。.
application-arguments: 传递给main函数参数，如java main方法中的args[].

常用提交模式：

第一种：client模式

适合于有专门的getway机器与集群位于同一网段，这种模式下，spark-submit提交后driver直接启动昨晚集群的一个client。集群的输出会返回到client端的console上。这种模式很适合spark-shell。

第二种：如果提交的机器远离spark集群的worker机器，最好使用cluster模式，该模式能够减少网络传输的错误。目前standalone模式并不支持py的这种方式。

对于cluster的管理还有一些参数要指定，比如说在standalone模式下，指定--supervise参数可以在driver在返回码是非0的退出后重启driver。下面是几种常用的提交命令参数：

#本地运行，指定8个core

./bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

 --master local[] \

/path/to/examples.jar \

100

# 在 Spark standalone 集群并且是client模式

./bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master spark://207.184.161.138:7077 \

--executor-memory 20G \

--total-executor-cores 100 \

/path/to/examples.jar \

1000

# 在 Spark standalone 集群并且是cluster模式 并指定supervise

./bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master spark://207.184.161.138:7077 \

--deploy-mode cluster \

--supervise \

--executor-memory 20G \

--total-executor-cores 100 \

/path/to/examples.jar \

1000

# Yarn cluster模式export HADOOP_CONF_DIR=XXX

./bin/spark-submit\

--class org.apache.spark.examples.SparkPi \

--master yarn \

--deploy-mode cluster \

# can be client for client mode

--executor-memory 20G \

--num-executors 50 \

/path/to/examples.jar \

1000

# python提交到standalone的cluster模式

./bin/spark-submit \

--master spark://207.184.161.138:7077 \

examples/src/main/python/pi.py \

1000

# mesos cluster模式，并指定supervise。

./bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master mesos://207.184.161.138:7077 \

--deploy-mode cluster \

--supervise \

--executor-memory 20G \

--total-executor-cores 100 \

http://path/to/examples.jar \

1000

关于master url的指定方法：

local	本地worker线程中运行spark，完全没有并行
local[K]	在本地work线程中启动K个线程运行spark
local[*]	启动与本地work机器的core个数想通的线程数来运行spark
spark://HOST:PORT	连接指定的standalone集群的master，默认7077端口
mesos://HOST:PORT	连接到mesos集群，默认5050端口。如果mesos使用了zk，那么也可以mesos://zk://.... 加 --deploy-mode cluster这种形式。
yarn	使用yarn的cluster或者yarn的client模式连接。取决于--deploy-mode参数，集群的位置需要使用hadoop的配置或者yarn的配置中去寻找。

关于默认配置文件：

spark-submit会默认读取conf/spark-defaults.conf 里面设置配置。

依赖管理:

使用spark-submit来提交spark程序，spark app本身jar以及使用--jars指定的所有jar包都会自动被分发到集群。--jars参数必须使用逗号分隔。spark使用下面这些方法指定jar来分发jar：

file: - 绝对路径 file:/ dirver的http file server。executors会从该driver上拉取jar。
hdfs:, http:, https:, ftp: -从这些位置拉取
local: - 从worke所在每台机器本地拉取文件，适合于jar包很大的场景。

spark提交模式的更多相关文章

【Spark篇】--Spark中Standalone的两种提交模式
一.前述 Spark中Standalone有两种提交模式,一个是Standalone-client模式,一个是Standalone-master模式. 二.具体 1.Standalon ...
Spark Standalone 提交模式
一.Client提交模式提交命令: ./spark-submit --master spark://node1:7077 --class org.apache.spark.examples.Spar ...
Spark学习之路（五）—— Spark运行模式与作业提交
一.作业提交 1.1 spark-submit Spark所有模式均使用spark-submit命令提交作业,其格式如下: ./bin/spark-submit \ --class <main- ...
Spark 系列（五）—— Spark 运行模式与作业提交
一.作业提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业,其格式如下: ./bin/spark-submit \ --class <ma ...
spark基于yarn的两种提交模式
一.spark的三种提交模式 1.第一种,Spark内核架构,即standalone模式,基于Spark自己的Master-Worker集群. 2.第二种,基于YARN的yarn-cluster模式. ...
小记--------spark的两种提交模式
spark的两种提交模式:yarn-cluster . yarn-client 图解
入门大数据---Spark部署模式与作业提交
一.作业提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业,其格式如下: ./bin/spark-submit \ --class <ma ...
Spark剖析-宽依赖与窄依赖、基于yarn的两种提交模式、sparkcontext原理剖析
Spark剖析-宽依赖与窄依赖.基于yarn的两种提交模式.sparkcontext原理剖析一.宽依赖与窄依赖二.基于yarn的两种提交模式深度剖析 2.1 Standalne-client 2. ...
大数据学习day18----第三阶段spark01--------0.前言（分布式运算框架的核心思想，MR与Spark的比较，spark可以怎么运行，spark提交到spark集群的方式）1. spark(standalone模式)的安装 2. Spark各个角色的功能 3.SparkShell的使用，spark编程入门（wordcount案例）
0.前言 0.1 分布式运算框架的核心思想(此处以MR运行在yarn上为例) 提交job时,resourcemanager(图中写成了master)会根据数据的量以及工作的复杂度,解析工作量,从而 ...

随机推荐

Jquery事件绑定的4中方式对比
bind()向匹配元素添加一个或多个事件处理器. 使用方式 $(selector).bind(event,data,function) event:必需项:添加到元素的一个或多个事件,例如 click ...
ubuntun下安装Fiddler
对于分析网页或者写爬虫的时候经常需要用到抓包工具进行网页数据的抓包.在Windows下可以安装Fiddler来抓包.在ubuntun下不能直接安装Fiddler.需要先安装mono 1 首先安装mon ...
蜗牛—ORACLE基础之触发器学习(三)
版权声明:本文为大腰子原创文章,如若转载,请标明原地址. https://blog.csdn.net/u010071361/article/details/30037215 建立一个触发器, 当职工表 ...
IOS - 执行时（多态）
一多态概述多态指同一操作作用于不同的对象.能够有不同的解释.产生不同的执行结果.它是面向对象程序设计(OOP)的一个重要特征,动态类型能使程序直到执行时才确定对象的所属类.其详细 ...
Apache Shiro 使用手册（四）Realm 实现（转发：http://kdboy.iteye.com/blog/1169631）
在认证.授权内部实现机制中都有提到,最终处理都将交给Real进行处理.因为在Shiro中,最终是通过Realm来获取应用程序中的用户.角色及权限信息的.通常情况下,在Realm中会直接从我们的数据源中 ...
CodeBackUP_node_find_serial
/*************************************************************** ** Find the serial number Node ** R ...
深入浅出聊聊企业级API网关
http://architect.dataguru.cn/article-11431-1.html API Gateway(API GW / API 网关),顾名思义,是出现在系统边界上的一个面向 A ...
PHP 邮件发送类
mail.php <?php /** * 邮件发送类 * 支持发送纯文本邮件和HTML格式的邮件,可以多收件人,多抄送,多秘密抄送,带附件的邮件 * 需要的php扩展,sockets和Filei ...
手机端适配rem代码片段
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
android电池（四）：电池电量计(MAX17040)驱动分析篇【转】
本文转载自:http://blog.csdn.net/xubin341719/article/details/8969369 电池电量计,库仑计,用max17040这颗电量IC去计量电池电量,这种方法 ...

spark提交模式

spark提交模式的更多相关文章

随机推荐

热门专题