spark常用提交任务的基本的参数配置

#!/bin/bash

#队列名 根据yarn的队列提交

realtime_queue=root

#提交的任务名

my_job_name="OrderQZ"

spark-shell --master yarn --deploy-mode client \

--queue $realtime_queue \

#总的executors数 根据数据量与自己的集群资源来分配

--num-executors 35 \

#每个executor的核数

--executor-cores 5 \

#每个executor的内存

--executor-memory 19G \

#diver 端jvm日志配置

--conf spark.driver.extraJavaOptions=-Dlog4j.configuration=log4j-yarn.properties \

--conf spark.executor.extraJavaOptions=-Dlog4j.configuration=log4j-yarn.properties \

#序列化

--conf spark.serializer=org.apache.spark.serializer.KryoSerializer \

#数据本地化;一般会默认3s,重试5次的去分配，一旦超时失败，将会选择一个比上一个本地级别差的级别再一次分配，如果发生了数据传输，那么task首先通过blockmanager获取数据，如果本地没有数据，则通过getRemote方法从数据所在节点的blockmanager获取数据并返回至task所在节点

--conf spark.locality.wait=5 \

#失败重试次数

--conf spark.task.maxFailures=8 \

# 是否开启在webui杀死进程

--conf spark.ui.killEnabled=false \

#SparkContext 启动时记录有效 SparkConf信息

--conf spark.logConf=true \

#driver的堆外内存 内存对象分配在Java虚拟机的堆以外的内存，这些内存直接受操作系统管理（而不是虚拟机），这样做的结果就是能够在一定程度上减少垃圾回收对应用程序造成的影响。使用未公开的Unsafe和NIO包下ByteBuffer来创建堆外内存

--conf spark.yarn.driver.memoryOverhead=512 \

--conf spark.yarn.executor.memoryOverhead=5480

#提交申请的最大尝试次数, 小于等于YARN配置中的全局最大尝试次数。

--conf spark.yarn.maxAppAttempts=4 \

#定义AM故障跟踪的有效时间间隔。如果AM至少在定义的时间间隔内运行，则AM故障计数将被重置。如果未配置，此功能未启用。

--conf spark.yarn.am.attemptFailuresValidityInterval=1h \

--conf spark.yarn.executor.failuresValidityInterval=1h \

#动态资源分配

--conf spark.shuffle.service.enabled=true \

--conf spark.serializer=org.apache.spark.serializer.KryoSerializer \

#推测执行

--conf spark.speculation=true \

--conf spark.speculation.quantile=0.9 \

#shffule task数目

--conf spark.sql.shuffle.partitions=178 \

#，当它设置为true时，Spark SQL会把每条查询的语句在运行时编译为java的二进制代码。这有什么作用呢？它可以提高大型查询的性能，但是如果进行小规模的查询的时候反而会变慢，就是说直接用查询反而比将它编译成为java的二进制代码快。所以在优化这个选项的时候要视情况而定。

--conf spark.sql.codegen=true \

#默认值为false 它的作用是自动对内存中的列式存储进行压缩

--conf spark.sql.inMemoryColumnarStorage.compressed=true \

# join实现主要有3种，即BroadcastHashJoinExec、ShuffledHashJoinExec和SortMergeJoinExec，优先级为

#1 如果canBroadcast，则BroadcastHashJoinExec；

#2 如果spark.sql.join.preferSortMergeJoin=false，则ShuffledHashJoinExec；

#3 否则为SortMergeJoinExec；

--conf spark.sql.join.preferSortMergeJoin=true \

# Spark底层shuffle的传输方式是使用netty传输，netty在进行网络传输的过程会申请堆外内存（netty是零拷贝），所以使用了堆外内存。

--conf spark.reducer.maxSizeInFlight=96M

/**

spark.reducer.maxSizeInFlight默认值：48m

参数说明：该参数用于设置shuffle read task的buffer缓冲大小，而这个buffer缓冲决定了每次能够拉取多少数据。

调优建议：如果作业可用的内存资源较为充足的话，可以适当增加这个参数的大小（比如96m），从而减少拉取数据的次数，也就可以减少网络传输的次数，进而提升性能。在实践中发现，合理调节该参数，性能会有1%~5%的提升。

错误：reduce oom

reduce task去map拉数据，reduce 一边拉数据一边聚合 reduce段有一块聚合内存（executor memory * 0.2）

解决办法：1、增加reduce 聚合的内存的比例 设置spark.shuffle.memoryFraction

2、 增加executor memory的大小 --executor-memory 5G

3、减少reduce task每次拉取的数据量 设置spark.reducer.maxSizeInFlight 24m

*/

spark常用提交任务的基本的参数配置的更多相关文章

Spark on Yarn：任务提交参数配置
当在YARN上运行Spark作业,每个Spark executor作为一个YARN容器运行.Spark可以使得多个Tasks在同一个容器里面运行. 以下参数配置为例子: spark-submit -- ...
Spark集群模式&Spark程序提交
Spark集群模式&Spark程序提交 1. 集群管理器 Spark当前支持三种集群管理方式 Standalone-Spark自带的一种集群管理方式,易于构建集群. Apache Mesos- ...
Spark应用提交
在 Spark 的 bin 目录中的 spark-submit 脚本用与在集群上启动应用程序.它可以通过一个统一的接口使用所有 Spark 支持的 Cluster Manager,所以您不需要专门的为 ...
Spark 性能相关参数配置详解－任务调度篇
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化. 由于篇 ...
Spark学习（四） -- Spark作业提交
标签(空格分隔): Spark 作业提交先回顾一下WordCount的过程: sc.textFile("README.rd").flatMap(line => line.s ...
spark任务提交到yarn上命令总结
spark任务提交到yarn上命令总结 1. 使用spark-submit提交任务集群模式执行 SparkPi 任务,指定资源使用,指定eventLog目录 spark-submit --class ...
08、Spark常用RDD变换
08.Spark常用RDD变换 8.1 概述 Spark RDD内部提供了很多变换操作,可以使用对数据的各种处理.同时,针对KV类型的操作,对应的方法封装在PairRDDFunctions trait ...
spark 常用函数介绍（python）
以下是个人理解,一切以官网文档为准. http://spark.apache.org/docs/latest/api/python/pyspark.html 在开始之前,我先介绍一下,RDD是什么? ...
Production环境中iptables常用参数配置
production环境中iptables常用参数配置作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 我相信在实际生产环境中有很多运维的兄弟跟我一样,很少用到iptables的这个 ...

随机推荐

PyQt（Python+Qt）学习随笔：QTreeWidgetItem项下子项的指示符展示原则childIndicatorPolicy
老猿Python博文目录专栏:使用PyQt开发图形界面Python应用老猿Python博客地址树型部件QTreeWidget中的QTreeWidgetItem项下可以有子项,如果存在子项,则父项 ...
Python特殊序列\d能匹配哪些数字？
在缺省语言环境下,老猿对\d的匹配范围做了个测试,下面的数字包含半角数字.全角数字.中文数字,测试语句如下: >>> m=re.search(r'(\d*)(\D*)(\d*)',' ...
DVWA SQL Injection High
High 虽然是high等级,但是通过源码审计发现与low等级一样,没有对传入的值做任何过滤,唯一不同的就是点击连接后打开了另外一个对话框,用户在新打开的页面输入其余的步骤与low级别的一样:htt ...
哀悼疫情，全站灰色如何实现，CSS滤镜一行代码实现
庚子清明,以国家之名哀悼,以国家之名哀悼在新冠肺炎疫情中牺牲的烈士和逝世的同胞! 向抗疫英雄致敬! 今日打开各样的app,各大电商,爱奇艺都是灰色的这里我也一直很好奇该功能,前端如何实现,了解过后发 ...
element ui中循环出来的表格勾选问题
需求是这样的,一个房主屋里面有多个电表,每一个表是一个账户,一次只能给一个账户缴费,在点击go按钮进行缴费,这个时候判断是否跨表勾选,跨表格勾选则弹窗提示,反之符合需求,走缴费逻辑上代码 <! ...
什么时候使用transition?什么时候使用animation？
不同点: 1. 触发条件不同.transition通常和hover等事件配合使用,由事件触发.animation则和gif动态图差不多,立即播放. 2. 循环. animation可以设定循环次数. ...
一文看懂 Kubernetes 服务发现： Service
Service 简介 K8s 中提供微服务的实体是 Pod,Pod 在创建时 docker engine 会为 pod 分配 ip,"外部"流量通过访问该 ip 获取微服务.但 ...
CF1400G - Mercenaries
1400G - Mercenaries 考场上想到枚举,但是只想到了 \(2 ^ m\) 枚举矛盾,然后用 NOI Online 2 游戏类似的容斥掉,结果式子推着推着就复杂度爆了 wtcl. (U ...
利用vs pcl库将多个PCD文件合并成一张PCD地图
主机环境:win10系统,pcl库1.11.1, vs2019 pcl库安装以及环境配置如下连接: https://www.jb51.net/article/190710.htm 代码很简单,主要是做 ...
C语言中++*x和*++x的区别
++跟*的优先级一样,如果两个同时出现,运算是从右往左(不是常规的从左往右),所以: ++*x即++(*x),先取x的值,然后让值自加1:(地址没变,指针指向的值变了.搞不懂的话自己用快递做例子) * ...

spark常用提交任务的基本的参数配置

spark常用提交任务的基本的参数配置的更多相关文章

随机推荐

热门专题