Spark Sql调优

一、任务调参

1.1 spark.executor.memory

executor执行分配的内存大小

1.2 spark.executor.cores

executor执行分配的核数

1.3 spark.executor.instances

需要的executor个数，等同num-executors，可以使用 spark.dynamicAllocation.enabled=true开启动态资源分配

spark.dynamicAllocation.enabled=true

spark.dynamicAllocation.maxExecutors=5

spark.shuffle.service.enabled=true

spark.dynamicAllocation.minExecutors=1

spark.dynamicAllocation.maxExecutors=30

1.4 spark.executor.memoryOverhead="1024m'

这个参数表示每个executor配备的可使用的堆外内存大小。在调spark应用程序时可能经常会碰到OOM，然后错误日志中提示让提高这个参数指定的值的情况。这种情况其实多发生在有数据倾斜的情况，这个调整经常是治标不治本，解决倾斜是根本。默认情况是配置的executor内存容量的10%

1.5 spark.executor.extraJavaOptions

Jvm参数值，我们有时候发现我们的job突然跑的很慢，一方面可以去看看Yarn上的资源分配情况，另一方面也可以没看看是不是有大量的时间用来做GC导致的。

例：最大的堆外内存：spark.executor.extraJavaOptions="-XX:MaxDirectMemorySize=1G"

1.6 spark.dynamicAllocation.enabled

可以避免使用spark.executor.instances或num-executors，使用动态资源分配，动态分配可以使的 Spark 的应用在有后续积压的在等待的 task 时请求 executor，并且在空闲时释放这些 executor

1.7 推测执行

推测任务是指对于一个Stage里面拖后腿的Task，会在其他节点的Executor上再次启动这个task，如果其中一个Task实例运行成功则将这个最先完成的Task的计算结果作为最终结果，同时会干掉其他Executor上运行的实例。spark推测式执行默认是关闭的，可通过spark.speculation属性来开启

--conf spark.speculation=true
--conf spark.speculation.interval=100
--conf spark.speculation.quantile=0.9
--conf spark.speculation.multiplier=1.5
（1）当spark.speculation设置为true时，就会对task开启推测执行，也就是在一个stage下跑的慢的tasks有机会重新启动；
（2）spark.speculation.interval，100ms，Spark检测tasks推测机制的间隔时间；
（3）spark.speculation.quantile，0.9，当一个stage下多少百分比的tasks运行完毕后才开启推测执行机制，0.9即90%的任务都运行完毕后开启推测执行；
（4）spark.speculation.multiplier，1.5，一个task的运行时间是所有task的运行时间中位数的几倍时，才会被认为该task需要重新启动。

1.8 配置metastore

配置[hive/in-memory]作为metastore，默认in-memory

在写非SQL代码时，SparkSession初始化时默认是用in-memory，不会加载hive-site.xml，如果需要访问元数据，需要在初始化时添加enableHiveSupport，设置metastore为hive

spark.sql.catalogImplementation="hive"

1.9 提升Shuffle计算性能

spark.shuffle.service.enabled=true

NodeManager中一个长期运行的辅助服务，用于提升Shuffle计算性能。默认为false，表示不启用该功能。

spark.shuffle.service.port 7337

Shuffle服务监听数据获取请求的端口。可选配置，默认值为“7337”

1.10 动态分区

hive.exec.dynamic.partition="true"
hive.exec.dynamic.partition.mode="nonstrict"

1.11 设置类型隐式转换

Hive 默认支持隐式转换，Spark需要设置以下参数来有限度支持隐式转换

spark.sql.storeAssignmentPolicy=LEGACY

1.12 小文件合并问题

Spark SQL在写入数据的时候是并行写入，并没有一个合并的过程。小文件过多，会增大Namenode的压力，同时对查询性能也有很大影响。通常在Hive中可以引入 hive.spark.mergefiles=true 来为hive的执行计划增加一个合并Job，但Spark SQL不支持这个做法。

spark.sql.adaptive.enabled=true; --动态调整Shuffle Partition

spark.sql.adaptive.advisoryPartitionSizeInBytes=262144000; --合并连续的随机播放分区，以避免执行过多的小任务。

spark.sql.adaptive.maxNumPostShufflePartitions=200; --reduce个数区间最大值，同时也是shuffle分区数的初始值

spark.sql.adaptive.forceApply=true; --强制开启AQE

spark.sql.adaptive.coalescePartitions.parallelismFirst=false; --不适用默认并行度设置

spark.sql.adaptive.coalescePartitions.minPartitionSize =52428800; --动态合并

Spark Sql调优的更多相关文章

Spark性能调优之合理设置并行度
Spark性能调优之合理设置并行度 1.Spark的并行度指的是什么? spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage的并行度! 当分配 ...
Spark性能调优之解决数据倾斜
Spark性能调优之解决数据倾斜数据倾斜七种解决方案 shuffle的过程最容易引起数据倾斜 1.使用Hive ETL预处理数据 • 方案适用场景:如果导致数据倾斜的是Hive表.如果该Hiv ...
数据倾斜是多么痛？spark作业调优秘籍
目录视图摘要视图订阅 [观点]物联网与大数据将助推工业应用的崛起,你认同么? CSDN日报20170703——<从高考到程序员——我一直在寻找答案> [直播]探究L ...
SQL调优常用方法
在使用DBMS时经常对系统的性能有非常高的要求:不能占用过多的系统内存和 CPU资源.要尽可能快的完成的数据库操作.要有尽可能高的系统吞吐量.如果系统开发出来不能满足要求的所有性能指标,则必须对系统进 ...
SQL调优
# 问题的提出在应用系统开发初期,由于开发数据库数据比较少,对于查询SQL语句,复杂视图的的编写等体会不出SQL语句各种写法的性能优劣,但是如果将应用系统提交实际应用后,随着数据库中数据的增加,系 ...
读《程序员的SQL金典》[4]--SQL调优
一.SQL注入如果程序中采用sql拼接的方式书写代码,那么很可能存在SQL注入漏洞.避免的方式有两种: 1. 对于用户输入过滤敏感字母: 2. 参数化SQL(推荐). 二.索引 ①索引分类聚簇索引 ...
[SQL SERVER系列]读书笔记之SQL注入漏洞和SQL调优
最近读了程序员的SQL金典这本书,觉得里面的SQL注入漏洞和SQL调优总结得不错,下面简单讨论下SQL注入漏洞和SQL调优. 1. SQL注入漏洞由于“'1'='1'”这个表达式永远返回 true, ...
SQL调优日志--内存问题
SQL调优日志--内存问题排查入门篇概述很多系统的性能问题,是由内存导致的.内存不够会导致页面频繁换入换出,IO队列高,进而影响数据库整体性能. 排查内存对数据库性能非常重要.那么我当出现问 ...
读书笔记之SQL注入漏洞和SQL调优
原文:读书笔记之SQL注入漏洞和SQL调优最近读了程序员的SQL金典这本书,觉得里面的SQL注入漏洞和SQL调优总结得不错,下面简单讨论下SQL注入漏洞和SQL调优. 1. SQL注入漏洞由于“' ...
Oracle SQL 调优健康检查脚本
Oracle SQL 调优健康检查脚本我们关注数据库系统的性能,进行数据库调优的主要工作就是进行SQL的优化.良好的数据架构设计.配合应用系统中间件和写一手漂亮的SQL,是未来系统上线后不出现致命性 ...

随机推荐

开发工具之DevToys
DevToys 号称开发人员的瑞士军刀,可以帮助完成一些日常任务,比如格式化 JSON.比较文本.测试正则等,无需使用许多不真实的网站来处理的数据. 借助智能检测,DevToys 能够检测出可以处理在 ...
基于docker的常用服务搭建
使用docker搭建相关服务: 1. MySQL服务 1) 拉取镜像 docker pull mysql:5.7 # 拉取 mysql 5.7 docker pull mysql # 拉取最新版mys ...
4-CSRF漏洞渗透与防御
1.什么是CSRF漏洞 Cross-Site Request Forgery 跨站请求伪造从一个第三方的网站,利用其他网站生效的cookie,直接请求服务器的某一个接口,导致攻击发生! 2.CSRF ...
fastadmin-表单使用
1.日期时间在FastAdmin中的日期时间组件采用的是Bootstrap-datetimepicker插件,官方文档:Bootstrap-datetimepicker官方教程日期时间格式设置:设 ...
【JS篇】控制子集超过一定数量开始轮播
[JS篇]控制子集超过一定数量开始轮播, 这个是很早的时候的一个效果了,经过代码的不断迭代升级修改,现在是最封装的一版本,通过面向对象传参数,适用于任何一个需要放置数量达到一定条件后可执行的函数 / ...
【Kotlin】协程
1 前言相较于 C# 中的协程(详见 → [Unity3D]协同程序),Kotlin 中协程更灵活,难度更大. 协程是一种并发设计模式,用于简化异步编程,它允许以顺序化的方式表达异步操作,避 ...
ecognition server注意事项
1.4002端口是节点管理界面,默认密码admin. 2.8184端口是任务管理界面. 3.节点在线状态下,查看提交的影像矢量路径是否正确. 4.看服务器读取各个文件是否有误. 5.用develope ...
Vue CLI中views和components文件夹的区别
首先,src/components和文件夹src/views都包含Vue组件. 关键区别在于某些Vue组件充当路由视图. 在Vue中(通常是Vue Router)处理路由时,将定义路由以切换组件中使用 ...
虚拟机 ubuntu18 树莓派4 QT5.14.2 交叉编译
编译过程主要参考了 <为树莓派4交叉编译QT5.14.2(带EGLFS支持)>,可以按照教程一步一步进行,在整个过程中,有2个地方需要注意. 1. sudo rpi-update 因为网络 ...
openEuler欧拉部署Jenkins
一.系统优化关闭防火墙 systemctl stop firewalld systemctl disable firewalld 二.安装Jenkins dnf -y install docker ...

Spark Sql调优

Spark Sql调优的更多相关文章

随机推荐

热门专题