spark 在yarn模式下提交作业

1、spark在yarn模式下提交作业需要启动hdfs集群和yarn，具体操作参照：hadoop 完全分布式集群搭建

2、spark需要配置yarn和hadoop的参数目录

将spark/conf/目录下的spark-env.sh.template文件复制一份，加入配置：

YARN_CONF_DIR=/opt/hadoop/hadoop-2.8.3/etc/hadoop

HADOOP_CONF_DIR=/opt/hadoop/hadoop-2.8.3/etc/hadoop

3、将spark整个目录分发到hdfs集群中每台机器上，分发命令可以参考：linux rsync

如果不想用rsync也可以直接用scp -r拷贝，测试环境下差别不大。

4、提交作业测试

bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client ./examples/jars/spark-examples_2.11-2.4.4.jar 200

正常情况下很快就能计算完成：

在yarn的UI可以监控到执行的作业：

5、spark参数优先级

Spark加载属性参数的优先顺序是：

 （1）直接在SparkConf设置的属性参数

 （2）通过 spark-submit 或 spark-shell 方式传递的属性参数

 （3）最后加载 spark-defaults.conf 配置文件的属性参数

如果在程序里指定了SparkConf的参数，则spark缺省参数以及命令行参数都将失效，如果想灵活一下，我们可以在SparkConf加载缺省配置（spark-defaults.conf），然后在命令方式下覆盖参数。

val conf: SparkConf = new SparkConf(true).setAppName("SparkWordCount")

master这个参数就可以指定local或者yarn等模式，但是name参数在命令指定是无效的，因为已经内置了。

bin/spark-submit --master yarn --name myWordCount --class com.home.spark.WordCount --executor-memory 512M ~/sparkWordCount.jar hdfs://vmhome10.com:9000/input

spark 在yarn模式下提交作业的更多相关文章

spark on yarn模式下配置spark-sql访问hive元数据
spark on yarn模式下配置spark-sql访问hive元数据目的:在spark on yarn模式下,执行spark-sql访问hive的元数据.并对比一下spark-sql 和hive ...
spark on yarn模式下内存资源管理（笔记1）
问题:1. spark中yarn集群资源管理器,container资源容器与集群各节点node,spark应用(application),spark作业(job),阶段(stage),任务(task) ...
spark on yarn模式下内存资源管理（笔记2）
1.spark 2.2内存占用计算公式 https://blog.csdn.net/lingbo229/article/details/80914283 2.spark on yarn内存分配** 本 ...
Spark在StandAlone模式下提交任务，spark.rpc.message.maxSize太小而出错
1.错误信息org.apache.spark.SparkException: Job aborted due to stage failure:Serialized task 32:5 was 172 ...
spark跑YARN模式或Client模式提交任务不成功（application state: ACCEPTED）
不多说,直接上干货! 问题详情电脑8G,目前搭建3节点的spark集群,采用YARN模式. master分配2G,slave1分配1G,slave2分配1G.(在安装虚拟机时) export SPA ...
spark跑YARN模式或Client模式提交任务不成功（application state: ACCEPTED）(转)
不多说,直接上干货! 问题详情电脑8G,目前搭建3节点的spark集群,采用YARN模式. master分配2G,slave1分配1G,slave2分配1G.(在安装虚拟机时) export SPA ...
flink on yarn模式下两种提交job方式
yarn集群搭建,参见hadoop 完全分布式集群搭建通过yarn进行资源管理,flink的任务直接提交到hadoop集群 1.hadoop集群启动,yarn需要运行起来.确保配置HADOOP_HO ...
Spark on YARN模式的安装（spark-1.6.1-bin-hadoop2.6.tgz + hadoop-2.6.0.tar.gz）（master、slave1和slave2）（博主推荐）
说白了 Spark on YARN模式的安装,它是非常的简单,只需要下载编译好Spark安装包,在一台带有Hadoop YARN客户端的的机器上运行即可. Spark on YARN简介与运行wor ...
spark on yarn模式里需要有时手工释放linux内存
为什么要提出这个问题? spark跑YARN模式或Client模式提交任务不成功(application state: ACCEPTED) 然后执行 [spark@master spark--bin- ...

随机推荐

用Python制作的一本道生成器，最后笑喷了！
今天皮一下,众所周知,一本道是一本正经的胡说八道的简称,想必写过议论文的小伙伴,都知道引经据典是议论文高分必备,套上名人的话更加具有说服力是语文老师必教的知识点. 所以呢,今天介绍的这个生成器就走的是 ...
ArcGIS api for JavaScript 3.27 按需显示需要的图层
实例:现有一图层服务,现需要动态显示该图层中的一部分内容:点击一个图例,只显示这个图例的内容,再点击别的图例,原来的内容不消失,再次点击已被点击的图例才会消失. 思路:setLayerDefiniti ...
Violet音乐社区设计文档
目录 Violet音乐社区设计文档一.引言 1.1 编写目的 1.2 开发背景二.用例图设计 2.1游客实例设计 2.2 管理员实例设计 2.3 普通用户实例设计三.类图设计 3.1 歌手类 3 ...
SQL Server关于AlwaysOn的理解
(一)SQL Server-AlwaysOn 技术:SQL Server AlwaysOn 即“全面的高可用性和灾难恢复解决方案” 1.数据库级可用性-只读副本:SQL Server 2012-4个, ...
并发编程~~~多线程~~~计算密集型 / IO密集型的效率, 多线程实现socket通信
一验证计算密集型 / IO密集型的效率 IO密集型: IO密集型: 单个进程的多线程的并发效率高. 计算密集型: 计算密集型: 多进程的并发并行效率高. 二多线程实现socket通信服务器端: ...
xadmin进行全局配置（修改模块名为中文以及其他自定义的操作步骤）
1.实现自定义配置和收缩: 在apps->users->adminx.py中操作如下图内容 2.改成中文操作如下图所示: 图1: 图2: run重启,刷新页面即可实现如下图: 接下来 ...
Python 对列表嵌套的数据进行排序
利用sorted(iterable[, key][, reverse]) key:指定一个接收一个参数的函数,这个函数用于从每个元素中提取一个用于比较的关键字,默认值为None(直接比较元素) rev ...
压测工具ab
1.安装abyum install httpd-tools 2.使用ab -n 2000 -c 2 http://www.cctv.com-n:总的请求数-c:并发数-k:是否开启长连接 3.结果举例 ...
mybatis之关联关系
前言:在我们之前的hibernate中我们是学过了关联关系的,所以我们在本章给讲一讲mybatis的关联关系. mybatis的关联关系一对多的测试1.通过逆向工程生成Hbook,HbookCateg ...
Java总结转载，持续更新。。。
1.Java中内存划分 https://www.cnblogs.com/yanglongbo/p/10981680.html

spark 在yarn模式下提交作业

spark 在yarn模式下提交作业的更多相关文章

随机推荐

热门专题