面试必备技能-HiveSQL优化

Hive SQL基本上适用大数据领域离线数据处理的大部分场景。Hive SQL的优化也是我们必须掌握的技能，而且，面试一定会问。那么，我希望面试者能答出其中的80%优化点，在这个问题上才算过关。

Hive优化目标

在有限的资源下，执行效率更高

常见问题

数据倾斜
map数设置
reduce数设置
其他

Hive执行

HQL --> Job --> Map/Reduce
执行计划

explain [extended] hql
样例
select col,count(1) from test2 group by col;
explain select col,count(1) from test2 group by col;

Hive表优化

分区

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;

静态分区
动态分区

分桶

set hive.enforce.bucketing=true;
set hive.enforce.sorting=true;

数据

相同数据尽量聚集在一起

Hive Job优化

并行化执行

每个查询被hive转化成多个阶段，有些阶段关联性不大，则可以并行化执行，减少执行时间
set hive.exec.parallel= true;
set hive.exec.parallel.thread.numbe=8;

本地化执行

job的输入数据大小必须小于参数:hive.exec.mode.local.auto.inputbytes.max(默认128MB)
job的map数必须小于参数:hive.exec.mode.local.auto.tasks.max(默认4)
job的reduce数必须为0或者1

set hive.exec.mode.local.auto=true;
当一个job满足如下条件才能真正使用本地模式:

job合并输入小文件

set hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat
合并文件数由mapred.max.split.size限制的大小决定

job合并输出小文件

set hive.merge.smallfiles.avgsize=256000000;当输出文件平均小于该值，启动新job合并文件
set hive.merge.size.per.task=64000000;合并之后的文件大小

JVM重利用

set mapred.job.reuse.jvm.num.tasks=20;
JVM重利用可以使得JOB长时间保留slot,直到作业结束，这在对于有较多任务和较多小文件的任务是非常有意义的，减少执行时间。当然这个值不能设置过大，因为有些作业会有reduce任务，如果reduce任务没有完成，则map任务占用的slot不能释放，其他的作业可能就需要等待。

压缩数据

set hive.exec.compress.output=true;
set mapred.output.compreession.codec=org.apache.hadoop.io.compress.GzipCodec;
set mapred.output.compression.type=BLOCK;

set hive.exec.compress.intermediate=true;
set hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
set hive.intermediate.compression.type=BLOCK;

中间压缩就是处理hive查询的多个job之间的数据，对于中间压缩，最好选择一个节省cpu耗时的压缩方式
hive查询最终的输出也可以压缩

Hive Map优化

set mapred.map.tasks =10; 无效
(1)默认map个数

default_num=total_size/block_size;

(2)期望大小

goal_num=mapred.map.tasks;

(3)设置处理的文件大小

split_size=max(mapred.min.split.size,block_size);
split_num=total_size/split_size;

(4)计算的map个数

compute_map_num=min(split_num,max(default_num,goal_num))

经过以上的分析，在设置map个数的时候，可以简答的总结为以下几点：

增大mapred.min.split.size的值

如果想增加map个数，则设置mapred.map.tasks为一个较大的值
如果想减小map个数，则设置mapred.min.split.size为一个较大的值
情况1：输入文件size巨大，但不是小文件
情况2：输入文件数量巨大，且都是小文件，就是单个文件的size小于blockSize。这种情况通过增大mapred.min.split.size不可行，需要使用combineFileInputFormat将多个input path合并成一个InputSplit送给mapper处理，从而减少mapper的数量。

map端聚合

set hive.map.aggr=true;

推测执行

mapred.map.tasks.apeculative.execution

Hive Shuffle优化

Map端

io.sort.mb
io.sort.spill.percent
min.num.spill.for.combine
io.sort.factor
io.sort.record.percent

Reduce端

mapred.reduce.parallel.copies
mapred.reduce.copy.backoff
io.sort.factor
mapred.job.shuffle.input.buffer.percent
mapred.job.shuffle.input.buffer.percent
mapred.job.shuffle.input.buffer.percent

Hive Reduce优化

需要reduce操作的查询

group by,join,distribute by,cluster by...
order by比较特殊,只需要一个reduce

sum,count,distinct...

聚合函数
高级查询

推测执行

mapred.reduce.tasks.speculative.execution
hive.mapred.reduce.tasks.speculative.execution

Reduce优化

numRTasks = min[maxReducers,input.size/perReducer]
maxReducers=hive.exec.reducers.max
perReducer = hive.exec.reducers.bytes.per.reducer

hive.exec.reducers.max 默认：999
hive.exec.reducers.bytes.per.reducer 默认:1G

set mapred.reduce.tasks=10;直接设置
计算公式

Hive查询操作优化
join优化

关联操作中有一张表非常小
不等值的链接操作
set hive.auto.current.join=true;
hive.mapjoin.smalltable.filesize默认值是25mb
select /*+mapjoin(A)*/ f.a,f.b from A t join B f on (f.a=t.a)
hive.optimize.skewjoin=true;如果是Join过程出现倾斜，应该设置为true
set hive.skewjoin.key=100000; 这个是join的键对应的记录条数超过这个值则会进行优化
mapjoin
简单总结下,mapjoin的使用场景:

Bucket join

两个表以相同方式划分桶
两个表的桶个数是倍数关系
crete table order(cid int,price float) clustered by(cid) into 32 buckets;
crete table customer(id int,first string) clustered by(id) into 32 buckets;
select price from order t join customer s on t.cid=s.id

join 优化前

select m.cid,u.id from order m join customer u on m.cid=u.id where m.dt='2013-12-12';

join优化后

select m.cid,u.id from (select cid from order where dt='2013-12-12')m join customer u on m.cid=u.id;

group by 优化

hive.groupby.skewindata=true;如果是group by 过程出现倾斜应该设置为true
set hive.groupby.mapaggr.checkinterval=100000;--这个是group的键对应的记录条数超过这个值则会进行优化

count distinct 优化

优化前

select count(distinct id) from tablename

优化后

select count(1) from (select distinct id from tablename) tmp;
select count(1) from (select id from tablename group by id) tmp;

优化前

select a,sum(b),count(distinct c),count(distinct d) from test group by a

优化后

select a,sum(b) as b,count(c) as c,count(d) as d from(select a,0 as b,c,null as d from test group by a,c union all select a,0 as b,null as c,d from test group by a,d union all select a,b,null as c,null as d from test)tmp1 group by a;

面试必备技能-HiveSQL优化的更多相关文章

Java1.7的HashMap源码分析-面试必备技能
HashMap是现在用的最多的map,HashMap的源码可以说是面试必备技能,今天我们试着分析一下jdk1.7下的源码. 先说结论:数组加链表一.先看整体的数据结构首先我们注意到数据是存放在一个 ...
MySQL数据库之大厂面试必备技能v8.0.27
概述 **本人博客网站 **IT小神 www.itxiaoshen.com 定义 MySQL官方地址 https://www.mysql.com/ MySQL 8系列最新版本为8.0.27,5系列的最 ...
（转）面试必备技能：JDK动态代理给Spring事务埋下的坑！
一.场景分析最近做项目遇到了一个很奇怪的问题,大致的业务场景是这样的:我们首先设定两个事务,事务parent和事务child,在Controller里边同时调用这两个方法,示例代码如下: 1.场景A ...
面试必备技能：HashMap哪些技术点会被经常问到？
1.为什么用数组+链表? 数组是用来确定桶的位置,利用元素的key的hash值对数组长度取模得到. 链表是用来解决hash冲突问题,当出现hash值一样的情形,就在数组上的对应位置形成一条链表.ps: ...
SQL Server管理员必备技能之性能优化
SQL Server管理员必备技能之性能优化高文龙关注1人评论1171人阅读2017-09-22 08:27:41 SQL Server 作为企业必不可少的服务之一,所以对于管理员的日常运维是一个极 ...
详解linux运维工程师入门级必备技能
详解linux运维工程师入门级必备技能 | 浏览:659 | 更新:2013-12-24 23:23 | 标签:linux it自动化运维就是要很方便的运用各种工具进行管理维护,有效的实施服务器保护 ...
自动化部署必备技能—部署yum仓库、定制rpm包
部署yum仓库.定制rpm包目录第1章扩展 - yum缓存 1.1 yum缓存使用步骤... 1 1.1.1 导言... 1 1.1.2 修改配置文件... 1 1.1.3 使用缓存... 1 ...
【转帖】系统软件工程师必备技能-进程内存的working set size(WSS)测量
系统软件工程师必备技能-进程内存的working set size(WSS)测量 2018年12月28日 18:43:01 Linuxer_ 阅读数:145 https://blog.csdn.net ...
【面试必备】常见Java面试题大综合
一.Java基础 1.Arrays.sort实现原理和Collections.sort实现原理答:Collections.sort方法底层会调用Arrays.sort方法,底层实现都是TimeSort ...

随机推荐

SVN用法及常见问题分析
SVN中英文对比: 1,今天遇到的新问题,在父节点里面找不到子节点文件夹,在子节点里面可以上传但是却一直上传不上去. 具体原因:子文件夹里面有个.svn文件(打开隐藏的项目可见),是的子文件夹的svn ...
JavaScript判断系统语言
var lang= null; function language(){ var language=null; if (navigator.appName == 'Netscape'){ langua ...
wcf生成客户端代理类步骤及语句
通过svcutil.exe工具生成客户端代理类和客户端的配置文件 .在运行中输入cmd打开命令行 ()cd C:\Program Files (x86)\Microsoft SDKs\Windows\ ...
软件光栅器实现（二、VS和PS的运作，法线贴图，切空间的计算）
二.软件光栅器的VS和PS的输入.输出和运作,实现法线贴图效果的版本.转载请注明出处. 这里介绍的VS和PS是实现法线映射的版本,本文仅介绍实现思路,并给出代码供参考.切空间计算.光照模型等相关公式不 ...
DOM对象和jQuery对象的转换
<script type="text/javascript"> //js的页面加载事件 window.onload = function () { //获取DOM对象 ...
_ZNote_Window_技巧_删除开机启动项
win + R 输入msconfig 可以打开
OPC上传ONENET工具
这个去年做过比较死的今年吸取人家转发网关配置工具的优点重做下
洛谷P1725--琪露诺(单调队列)
https://www.luogu.org/problemnew/show/P1725 关于滑动窗口的解释https://www.cnblogs.com/albert67/p/10449039.htm ...
spark入门
这一两年Spark技术很火,自己也凑热闹,反复的试验.研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家.这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介.编译.部署,再到编 ...
本周对于java中lamdba表达式与内部进行了学习，以下是我在学习就中遇到的问题
在java中,可以将一个类定义在另一个类里面或者一个方法里面,这样的类称为内部类.我觉得其实就是类的嵌套,在一个类中再定义一个类,这里已成员内部类为讲,内部类可以自由地运用外部类定义的方法,但外部类想 ...

面试必备技能-HiveSQL优化

面试必备技能-HiveSQL优化的更多相关文章

随机推荐

热门专题