最近刚学习spark，用spark-submit命令提交一个python脚本，一开始老报错，所以打算好好整理一下用spark-submit命令提交python脚本的过程。先看一下spark-submit的可选参数

1.spark-submit参数

--master MASTER_URL:设置集群的主URL，用于决定任务提交到何处执行。常见的选项有

local:提交到本地服务器执行，并分配单个线程

local[k]:提交到本地服务器执行，并分配k个线程

spark://HOST:PORT:提交到standalone模式部署的spark集群中，并指定主节点的IP与端口

mesos://HOST:PORT：提交到mesos模式部署的集群中，并指定主节点的IP与端口

yarn:提交到yarn模式部署的集群中

--deploy-mode DEPLOY_MODE:设置driver启动的未知，可选项如下，默认为client

client:在客户端上启动driver，这样逻辑运算在client上执行，任务执行在cluster上

cluster：逻辑运算与任务执行均在cluster上，cluster模式暂时不支持于Mesos集群或Python应用程序

--class CLASS_NAME :指定应用程序的类入口，即主类，仅针对java、scala程序，不作用于python程序

--name NAME :应用程序的名称

--jars JARS:用逗号隔开的driver本地jar包列表以及executor类路径,将程序代码及依赖资源打包成jar包

--packages:包含在driver 和executor 的 classpath 中的 jar 的 maven 坐标

--exclude-packages:为了避免冲突，指定的参数--package中不包含的jars包

--repository:附加的远程资源库(包含jars包)等，可以通过maven坐标进行搜索

--py-files PY_FILES:逗号隔开的的.zip、.egg、.py文件，这些文件会放置在PYTHONPATH下，该参数仅针对python应用程序

--files FILES:逗号隔开的文件列表，这些文件将存放于每一个工作节点进程目录下

--conf PROP=VALUE:指定spark配置属性的值，格式为PROP=VALUE，例如 -conf spark.executor.extraJavaOptions="-XX:MaxPermSize=256m"

--properties-file FILE:指定需要额外加载的配置文件，用逗号分隔，如果不指定，默认为 conf/spark-defaults.conf

--driver-memory MEM :配置driver内存，默认为1G

--driver-java-options:传递给driver的额外选项

--driver-library-path:传递给driver的额外的库路径

--driver-class-path:传递给driver 的额外的类路径，用--jars 添加的jar包会自动包含在类路径里

--executor-memory MEM :每个 executor 的内存，默认是1G

当'--master'参数设置为Standalone，‘--deploy-mode’参数设置为cluster时，如下选项可以设置：

　　--driver-cores NUM：driver使用的内核数，默认为1

当'--master'参数设置为Standalone或者Mesos，‘--deploy-mode’参数设置为cluster时，如下选项可以设置：

　　--supervise:如果设置了该参数，driver失败是会重启

　　--kill SUBMISSION_ID:如果设置了该参数，则会杀死指定SUBMISSION_ID的driver进程

　　--status SUBMISSION_ID：如果设置了该参数，则请求返回指定SUBMISSION_ID的driver的状态

当'--master'参数设置为Standalone或者Mesos时，如下选项可以设置：

　　 --total-executor-cores NUM：设置集群中所有工作节点上executor使用的内核总数

当'--master'参数设置为Standalone或者YARN时，如下选项可以设置：

　　--executor-cores NUM：每个executor使用的核数

当'--master'参数设置为YARN时，如下选项可以设置：

　　--driver-cores NUM ：当--deploy-mode为cluster时，driver使用的内核数，默认为1

　　--queue QUEUE_NAME ：将任务提交给哪个YARN队列，默认为YARN的默认队列

　　--num-executors NUM：设置启动的executor数量，默认为2

　　--archives ARCHIVES ：被每个executor提取到工作目录的档案列表，用逗号隔开

2.提交python脚本

在提交firstApp.py脚本时，使用如下指令

$ spark-submit \

--master local[2] \

--num-executors 2 \

--executor-memory 1G \

--py-files /home/hadoop/Download/test/firstApp.py

结果报如下错误“Error: Cannot load main class from JAR file:/home/hadoop/Download/spark-2.1.1-bin-hadoop2.7/bin/master”,其中:/home/hadoop/Download/spark-2.1.1-bin-hadoop2.7/bin/master与hadoop安装路径相关，虽然python脚本没有主类这一说，但是可以猜测到该错误是由于找不到函数入口导致，我在这里找打了一些答案，--py-fiels参数是用来添加应用程序所依赖的python文件的，我们要提交的应用程序可以直接采用如下方式提交，这样就没有报错了

$ spark-submit \

--master local[2] \

--num-executors 2 \

--executor-memory 1G \

 /home/hadoop/Download/test/firstApp.py

spark-submit提交python脚本过程记录的更多相关文章

[Java/Python] java调用python脚本问题记录
Java调用Python的的两种方式 1.Runtime private static String call_python(String input_argv) { String python_py ...
ubuntu14.04下安装cudnn5.1.3,opencv3.0,编译caffe及配置matlab和python接口过程记录
已有条件: ubuntu14.04+cuda7.5+anaconda2(即python2.7)+matlabR2014a 上述已经装好了,开始搭建caffe环境. 1. 装cudnn5.1.3,参照: ...
python 脚本运行时报错： AttributeError: 'module' object has no attribute ***
最近在编写Python脚本过程中遇到一个问题比较奇怪:Python脚本完全正常没问题,但执行总报错"AttributeError: 'module' object has no attrib ...
【原创】大数据基础之Spark（1）Spark Submit即Spark任务提交过程
Spark2.1.1 一 Spark Submit本地解析 1.1 现象提交命令: spark-submit --master local[10] --driver-memory 30g --cla ...
Discuz!X 3.4 任意文件删除漏洞复现过程(附python脚本)
今天看下群里在讨论Discuz!X 3.4 任意文件删除漏洞,自己做了一些测试,记录一下过程.结尾附上自己编写的python脚本,自动化实现任意文件删除. 具体漏洞,请查看 https://paper ...
基于binlog来分析mysql的行记录修改情况（python脚本分析）
最近写完mysql flashback,突然发现还有有这种使用场景:有些情况下,可能会统计在某个时间段内,MySQL修改了多少数据量?发生了多少事务?主要是哪些表格发生变动?变动的数量是怎 ...
spark下使用submit提交任务后报jar包已存在错误
使用spark submit进行任务提交,离线跑数据,提交后的一段时间内可以application可以正常运行.过了一段时间后,就抛出以下错误: org.apache.spark.SparkExcep ...
【原创】控制perl和python脚本执行过程中脚本文件是否关闭的方法
引子跟踪perl和python脚本对文件的访问,实际过程中,perl和python解析器在解析完脚本后,直接关闭了脚本文件,在进程中查询不到是访问文件的脚本文件名称. shell.perl和pyt ...
Python脚本实现Linux/MAC中Xmind Zen去水印等其他功能的过程（V0.1）
说明本脚本仅作为学习使用,请勿用于任何商业用途.本文为原创,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接和本声明.功能简介去除软件右上角激活按钮去除导出时激活弹窗去除导出PDF文 ...

随机推荐

sop服务治理
一,为什么需要服务治理: 我们最先接触的单体架构, 整个系统就只有一个工程, 打包往往是打成了 war 包, 然后部署到单一 tomcat 上面, 这种就是单体架构, 如图: 假如系统按照功能划分了, ...
MeteoInfoLab脚本示例：合并数组
对于全球数据来说,经度要么是-180 - 180,要么是0 - 360,都会存在边界数据不连续的问题.比如0 - 360的数据,怎么得到 -20 - 30度的连续格点数据就是个问题(跨越了数据的经度边 ...
ffmpeg实现视频文件合并/截取预览视频/抽取音频/crop(裁剪)(ffmpeg4.2.2)
一,ffmpeg的安装请参见: https://www.cnblogs.com/architectforest/p/12807683.html 说明:刘宏缔的架构森林是一个专注架构的博客,地址:ht ...
查询MS sql server里的所有表 SQL中所有列,说明,类型查询总存储过程数
1.查询SQL中的所有表: Select TABLE_NAME FROM "你的数据库名称".INFORMATION_SCHEMA.TABLES Where TABLE_TYP ...
MySQL死锁系列-线上死锁问题排查思路
前言 MySQL 死锁异常是我们经常会遇到的线上异常类别,一旦线上业务日间复杂,各种业务操作之间往往会产生锁冲突,有些会导致死锁异常.这种死锁异常一般要在特定时间特定数据和特定业务操作才会复现,并且分 ...
如何快速在vscode配置C/C++环境
目录 1.卸载重装vscode 2.下载vscode 3.下载MinGW 4.配置环境变量 5.配置c/c++环境 6.超完整的配置文件 7.常用扩展推荐 8.注意 9.后记相信许多刚开始使用vsc ...
Spark RDD详解 | RDD特性、lineage、缓存、checkpoint、依赖关系
RDD(Resilient Distributed Datasets)弹性的分布式数据集,又称Spark core,它代表一个只读的.不可变.可分区,里面的元素可分布式并行计算的数据集. RDD是一个 ...
mysql 架构简介
mysql的逻辑架构第一层:进行连接处理.权限认证.安全校验等. 当客户端(应用)连接到mysql服务器时,服务器会创建使用一个线程进行处理连接(少量的线程服务大量的连接),随后服务器需要对该连接进 ...
GridView使用SimpleAdapter
<RelativeLayout xmlns:android="http://schemas.android.com/apk/res/android" xmlns:app=&q ...
CTF：sctf_2019_easy_heap
这个题目当时比赛的时候靶机据说是ubuntu16.04,但是迁移到buu上就变成了ubuntu18.04,下面针对两个平台给出不同的解法,先写一下18.04下的先来逆一下,关键点有一下几个 mmap ...

spark-submit提交python脚本过程记录

1.spark-submit参数

2.提交python脚本

spark-submit提交python脚本过程记录的更多相关文章

随机推荐

热门专题