spark优化——依赖包传入HDFS_spark.yarn.jar和spark.yarn.archive的使用

一、参数说明

启动Spark任务时，在没有配置spark.yarn.archive或者spark.yarn.jars时，会看到不停地上传jar，非常耗时；使用spark.yarn.archive可以大大地减少任务的启动时间，整个处理过程如下。

二、spark.yarn.archive使用

1.在本地创建zip文件

silent@bd01:~/env/spark$ cd jars/

silent@bd01:~/env/spark$ zip spark2.0.0.zip ./*

注：zip包为全量包

2.上传至HDFS并更改权

silent@bd01:~/env/spark$ /usr/ndp/current/hdfs_client/bin/hdfs dfs -mkdir /tmp/spark-archive

silent@bd01:~/env/spark$ /usr/ndp/current/hdfs_client/bin/hdfs dfs -put ./spark2.0.0.zip /tmp/spark-archive

silent@bd01:~/env/spark$ /usr/ndp/current/hdfs_client/bin/hdfs dfs -chmod  /tmp/spark-archive/spark2.0.0.zip.zip

3.配置spark-defaut.conf

spark.yarn.archive  hdfs:///tmp/spark-archive/spark2.0.0.zip

三、spark.yarn.jars使用说明

1. 上传依赖jar包

silent@bd01:~/env/spark$ /usr/ndp/current/hdfs_client/bin/hdfs dfs -mkdir hdfs://bd01/user/asiainfo/jars/
silent@bd01:~/env/spark$ /usr/ndp/current/hdfs_client/bin/hdfs dfs -put ./spark2.0.0.zip hdfs://bd01/user/asiainfo/jars/
silent@bd01:~/env/spark$ /usr/ndp/current/hdfs_client/bin/hdfs dfs -chmod  hdfs://bd01/user/asiainfo/jars/spark2.0.0.zip.zip

2.配置spark-defaut.conf

spark.yarn.jars=local:/opt/cloudera/parcels/CDH-6.1.-.cdh6.1.0.p0./lib/spark/jars/*,local:/opt/cloudera/parcels/CDH-6.1.0-1.cdh6.1.0.p0.770702/lib/spark/hive/*,hdfs://bd01/user/asiainfo/jars/*.jar

注：本地配置local,hdfs标记为hdfs目录即可

spark优化——依赖包传入HDFS_spark.yarn.jar和spark.yarn.archive的使用的更多相关文章

用gradle4.4转化spring,发现依赖包integration-0.9.15.jar已经不在
用gradle4.4转化spring,发现依赖包integration-0.9.15.jar已经不在仓库了,应该怎么解决? 解决办法如下: 1 修改build.gradle文件,将id " ...
spark.yarn.jar和spark.yarn.archive的使用
启动Spark任务时,在没有配置spark.yarn.archive或者spark.yarn.jars时, 会看到不停地上传jar非常耗时:使用spark.yarn.archive可以大大地减少任务的 ...
maven打包时，依赖包打不进jar包中
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/20 ...
[实践]使用JarJar优雅的发布依赖包
[实践]使用JarJar优雅的发布依赖包打包工具: Jar Jar Links是一个Java类库重新打包工具. 可以帮助你将其它用到的java库打包并嵌入到你自己的项目jar包中.这样做的原因有: ...
《Spark 官方文档》在Mesos上运行Spark
本文转自:http://ifeve.com/spark-mesos-spark/ 在Mesos上运行Spark Spark可以在由Apache Mesos 管理的硬件集群中运行. 在Mesos集群中使 ...
spark项目打jar包，不包含依赖包问题的解决方案
mvn clean package打包maven-archetype-webapp项目时,打包后的jar包含项目中引用的jar包(解压后,在WEB-INF有一个lib目录,该目录下有所有依赖包). m ...
Spark On Yarn中spark.yarn.jar属性的使用
今天在测试spark-sql运行在yarn上的过程中,无意间从日志中发现了一个问题: spark-sql --master yarn // :: INFO Client: Requesting a n ...
Maven打包成Jar文件时依赖包的问题
我们项目中使用到第三方的库文件,这些jar库文件并没有放到Maven中央库上,导致我们需要在项目中自己配置使用.我们的两三个开发人员对Java都是很熟,因此在使用中遇到了一些问题,表现在:在本地中引入 ...
通过 spark.files 传入spark任务依赖的文件源码分析
版本:spak2.3 相关源码:org.apache.spark.SparkContext 在创建spark任务时候,往往会指定一些依赖文件,通常我们可以在spark-submit脚本使用--file ...

随机推荐

fiddler 解决不能抓https包的问题
新解决方案重置Fiddler,具体步骤: Tools > Fiddler Options > HTTPS > “Certificates generated by MakeCert ...
xterm.js的深入学习
demo <template> <div id="app" class="app-box">Hello</div> < ...
opencv图像的基本操作3
1.获取像素并修改读取一副图像,根据像素的行和列的坐标获取它的像素值,对于RGB图像而言,返回RGB的值,对于灰度图则返回灰度值 import cv2 import numpy img = cv2. ...
java并发编程之美-阅读记录3
java并发包中的ThreadLocalRandom类,jdk1.7增加的随机数生成器 Random类的缺点:是多个线程使用同一个原子性的种子变量,导致对原子变量的更新产生竞争,降低了效率(该类是线程 ...
cmd 编码格式
相当于编辑器的声明为gbk格式编码,输出格式也是gbka = '中文' 就会以gbk编码为str,也只能以gbk解码. reload sys修改默认编码在不指定编码的时候充当默认解码或者编码格式
.net core mvc model填充过滤器
在程序开发中,我们可能经常遇到所有的数据库表有相同的属性和行为,比如需要记录数据的创建人员,创建时间,修改时间和修改人.如果在每个action中都加上这些信息,代码看着比较冗余,看着不那么优雅,于是考 ...
redis基础及基本命令
什么是redis Redis是一个Key-value存储系统,redis提供了丰富的数据结构,包括string(字符串),list(列表),sets(集合),ordered set(有序集合),has ...
拓展练习部分---打包压缩及 RPM工具
目录打包压缩部分 1.linux下常见的压缩包类型有哪些 rpm 工具部分打包压缩部分 1.linux下常见的压缩包类型有哪些 .zip .gz 会删除源文件 .bz2 会删除源文件 .tar.g ...
GOOSE报文解析
GOOSE报文解析变电站使用 MMS报文 http://www.360doc.com/content/16/1014/20/36538220_598459873.shtml
力扣—Reorder List（重排链表）python实现
题目描述: 中文: 给定一个单链表 L:L0→L1→…→Ln-1→Ln ,将其重新排列后变为: L0→Ln→L1→Ln-1→L2→Ln-2→… 你不能只是单纯的改变节点内部的值,而是需要实际的进行节点 ...