hive sql的参数调优
shuffle优化之减少shuffle数据量
1.谓词下推
hive.optimize.ppd ,默认为true。
所谓谓词下推就是过滤条件如果写在shuffle操作后面,就提前过滤掉,减少参与shuffle的数据量
如 select * from a join b on a.id=b.id where a.age>10 ,这里执行计划会优先执行 a.age>10 再执行 a join b ,是一种自动优化
但是如下sql就无法自动优化 select * from a join b on a.id=b.id where a.age+b.age>10 , 该where条件只能等到join之后才能执行
2.预聚合
hive.map.aggr,默认为true。
所谓预聚合就是聚合之前,先在map端做部分聚合,减小数据量之后再做shuffle操作,如下图所示(做count计算)

但是有些函数是没有办法做预聚合的,比如count(distinct),你不能在本地先计算出去重后的数量,再和其他机器上去重的数量相加,因为这会偏大。
类似的还有平均数等。
3.自动使用map join
hive.auto.convert.join,默认值true
当小表的行数或者文件大小小到一定程度的时候,就会自动启动map join,将小表广播出去。广播后的join操作不需要进行shuffle,在本地机器就能完成。
用该参数 hive.mapjoin.cache.numrows 控制触发map join的行数大小
用该参数 hive.mapjoin.smalltable.filesize 控制触发map join的文件大小
数据倾斜优化
4.group by数据倾斜自动均衡
hive.groupby.skewindata,默认值false
原理还是预聚合,为了实现预聚合,它实行了两阶段聚合法,生成了2个MapReduce。
这个参数并不常用。
5.join数据倾斜自动均衡
hive.optimize.skewjoin,默认为false
原理是再生成一个MapReduce将倾斜的key单独处理。参考我们处理join的数据倾斜的时候用union的方法
可以用hive.skewjoin.key来判断该key是否属于倾斜,如果该key的行数超过这个参数,则认为该key倾斜,需要在第二个MapReduce中单独处理
还可以用hive.skewjoin.mapjoin.map.tasks控制第二个MapReduce里的map的数量。
调整task的数量
6.调整map的数量
可以通过切分的数据大小来控制map的数量
mapred.max.split.size 如果dfs.block.size的大小超过了该参数,每个map的文件大小就是该参数的大小
mapred.min.split.size 如果dfs.block.size的大小比该参数还小,每个map的大小就是该参数的大小
如果dfs.block.size在该参数两者之间,那每个map的文件大小就是dfs.block.size的大小,即每个block一个map
设定了每个map的大小,根据整个文件的大小,就可以得到map的数量。
你也可以指定参数mapred.map.tasks,来控制map的数量,但是这不一定起效果
原因在于,block的文件大小在mapred.max.split.size和mapred.min.split.size 之间的时候
该参数不起作用mapred.map.tasks,map的数量还是block的数量
当block的文件大小不在mapred.max.split.size和mapred.min.split.size 之间的时候
若block比min还小:map的大小以mapred.min.split.size来定(确定了大小也就确定了数量)
若block比max还大:若该参数的值得到一个map的大小(总文件大小除以该参数),比block大,则无效,比max小,也无效
只有当该map大小,在block和max之间的时候,才会有效,总结一下,就是该参数是mapred.max.split.size的修正。
7.调整reduce的数量
mapred.reduce.tasks可以直接指定reduce的时候的数量
也可以指定reduce能够处理的最大数据量hive.exec.reducers.bytes.per.reducer
或者是指定每个job的最大reducer数量hive.exec.reducers.max,
以小的那个为准:reducer_num = MIN(total_input_size / reducers.bytes.per.reducer, reducers.max)
如果reduce的数量过多,就会产生多个小文件,如果reduce过少,就会增大每个reduce的负担
MR整体优化
8.合并小文件
hive.merge.mapfiles 如果该MapReduce里没有reduce,该参数为true时,程序写入硬盘时会自动合并小文件
hive.merge.mapredfiles 如果该MapReduce里有reduce,则使用该参数。
hive.merge.size.per.task可以指定每个task输出后合并文件大小的期望值
hive.merge.size.smallfiles.avgsize可以指定所有输出文件大小的均值阈值,默认值都是1GB,如果平均大小不足的话,就会另外启动一个任务来进行合并。
9.启动压缩
压缩是以时间换空间的一种做法,压缩带来的坏处是数据的压缩和解压带来的消耗,带来的好处是可以大大减小数据传输和存储的大小。
分布式系统的网络资源比较可贵,尤其是遇到shuffle操作的时候,需要大量的网络传输,此时大大减小数据量的大小是非常有帮助的。
而且压缩和解压都是map操作,在自己机器上就可以完成。
有些压缩算法甚至在压缩后还支持某些计算(大部分的计算都要将数据解压后才能进行)。
hive.exec.compress.intermediate,默认为true
指定压缩方式:hive.intermediate.compression.codec
10.JVM重用
JVM利用率低是MapReduce比spark慢的原因之一。MR默认每执行一个task就启动一个jvm,而spark是启动一个jvm称之为executor,不断的接收task任务,避免了JVM不断启动销毁的资源开销。
所以MR也对此进行了改良,可以指定一个jvm重复处理几个task
通过指定参数mapred.job.reuse.jvm.num.tasks,可以指定一个MR中,一个jvm操作多少个task。
11.严格模式
hive.mapred.mode,可以设置值为strict或者nostrict
严格模式阻止了下面3种查询方式:分区表全表查询不指定分区,全局排序不指定limit,在非map join 的join中使用笛卡尔积
这3种操作都是有可能严重拖垮资源的行为。
12.本地模式
使用单台机器实现数据的计算,减小集群计算的消耗,适用于小数据量小计算量的任务
通过hive.exec.mode.local.auto=true开启。
可以通过hive.exec.mode.local.auto.inputbytes.max和hive.exec.mode.local.auto.tasks.max 设置数据文件大小和map数来决定是否触发本地模式
另外,reduce数量不能超过1个,否则也触发不了。
13.不同的job之间并发运行
将hive.exec.parallel设置为true即可。通过hive.exec.parallel.thread.number可以设定并行执行的线程数。
但是要保证job之间没有依赖关系,如果两个job是由同一个sql生成的, 或者MR之间指定了顺序,则无法并发进行。
hive sql的参数调优的更多相关文章
- hive优化之参数调优
1.hive参数优化之默认启用本地模式 启动hive本地模式参数,一般建议将其设置为true,即时刻启用: hive (chavin)> set hive.exec.mode.local.aut ...
- 大数据:Hive常用参数调优
1.limit限制调整 一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果. 有一个配置属性可以开启,避免这种情况---对数据源进行抽样 hive.limit.optimize.e ...
- 1,Spark参数调优
Spark调优 目录 Spark调优 一.代码规范 1.1 避免创建重复RDD 1.2 尽量复用同一个RDD 1.3 多次使用的RDD要持久化 1.4 使用高性能算子 1.5 好习惯 二.参数调优 资 ...
- sql server 性能调优 资源等待之内存瓶颈的三种等待类型
原文:sql server 性能调优 资源等待之内存瓶颈的三种等待类型 一.概述 这篇介绍Stolen内存相关的主要三种等待类型以及对应的waittype编号,CMEMTHREAD(0x00B9),S ...
- mysql日常运维与参数调优
日常运维 DBA运维工作 日常 导数据,数据修改,表结构变更 加权限,问题处理 其它 数据库选型部署,设计,监控,备份,优化等 日常运维工作: 导数据及注意事项 数据修改及注意事项 表结构变更及注意事 ...
- 看MySQL的参数调优及数据库锁实践有这一篇足够了
史上最强MySQL参数调优及数据库锁实践 1. 应用优化 1.2 减少对MySQL的访问 1.2.1 避免对数据进行重复检索 1.2.2 增加cache层 1.3 负载均衡 1.3.1 利用MySQL ...
- Linux上TCP的几个内核参数调优
Linux作为一个强大的操作系统,提供了一系列内核参数供我们进行调优.光TCP的调优参数就有50多个.在和线上问题斗智斗勇的过程中,笔者积累了一些在内网环境应该进行调优的参数.在此分享出来,希望对大家 ...
- Spark Shuffle原理、Shuffle操作问题解决和参数调优
摘要: 1 shuffle原理 1.1 mapreduce的shuffle原理 1.1.1 map task端操作 1.1.2 reduce task端操作 1.2 spark现在的SortShuff ...
- 搭建 windows(7)下Xgboost(0.4)环境 (python,java)以及使用介绍及参数调优
摘要: 1.所需工具 2.详细过程 3.验证 4.使用指南 5.参数调优 内容: 1.所需工具 我用到了git(内含git bash),Visual Studio 2012(10及以上就可以),xgb ...
随机推荐
- 【笔记】《Redis设计与实现》chapter15 复制
15.1 旧版复制功能的实现 同步 命令传播 旧版复制功能的缺陷 15.3 新版复制功能的实现 Redis2.8开始,使用PSYNC命令替代SYNC命令来执行复制时的同步操作 PSYNC命令具有完整重 ...
- 【笔记】《Redis设计与实现》chapter8 对象
8.1 对象的类型与编码 Redis中的每个对象都由一个redisObject结构表示,该结构中和保存数据有关的三个属性分别是type属性.encoding属性和ptr属性 typedef struc ...
- manjaro 手动调节屏幕亮度
1 问题描述 manjaro版本20.0,桌面XFCE,设置之类的地方没有屏幕亮度调节的功能. 2 解决方案 解决方案来自arch wiki. 亮度由ACPI内核模块控制,这个模块的接口在以下位置: ...
- try - with - resource
本文详细介绍了自 JDK 7 引入的 try-with-resources 语句的原理和用法,以及介绍了 JDK 9 对 try-with-resources 的改进,使得用户可以更加方便.简洁的使用 ...
- React函数式组件的性能优化
优化思路 主要优化的方向有2个: 减少重新 render 的次数.因为在 React 里最重(花时间最长)的一块就是 reconction(简单的可以理解为 diff),如果不 render,就不会 ...
- NetCore去注册Eureka
首先先安装nuget组件:Steeltoe.Discovery.ClientCore 然后在ConfigureServices中进行注入 services.AddDiscoveryClient(Con ...
- SSDT表概念详解
SSDT 的全称是 System Services Descriptor Table,系统服务描述符表. 这个表就是一个把 Ring3 的 Win32 API 和 Ring0 的内核 API 联系起来 ...
- jsp JDBC连接MySQL数据库操作标准流程参考
1. 此案例以帐号密码后台更新维护为例子,对数据库调取数据更新流程进行演示: 代码示例: <%@page import="java.io.IOException"%> ...
- redux和mobx入门使用
redux和mobx入门使用 项目涉及技术 公共插件 create-react-app react-dom react-router react-router-dom react-hook redux ...
- Day001 基本的Dos命令
基本的Dos命令 打开cmd的方式 开始+系统+命令提示符(有时候需要右键以管理员身份运行) Win+R键,输入cmd打开控制台 按住shift键的同时鼠标右键,点击在此处打开powershell窗口 ...