Hive优化目标

在有限的资源下，执行效率更高

常见问题：

数据倾斜
map数设置
reduce数设置
其他

Hive执行

HQL --> Job --> Map/Reduce

执行计划

explain [extended] hql

样例

select col,count(1) from test2 group by col;
explain select col,count(1) from test2 group by col;

Hive表优化

分区

set hive.exec.dynamic.partition=true;

set hive.exec.dynamic.partition.mode=nonstrict;

静态分区

动态分区

分桶

set hive.enforce.bucketing=true;

set hive.enforce.sorting=true;

数据

相同数据尽量聚集在一起

Hive Job优化

并行化执行

每个查询被hive转化成多个阶段，有些阶段关联性不大，则可以并行化执行，减少执行时间

set hive.exec.parallel= true;

set hive.exec.parallel.thread.numbe=8;
本地化执行

job的输入数据大小必须小于参数:hive.exec.mode.local.auto.inputbytes.max(默认128MB)

job的map数必须小于参数:hive.exec.mode.local.auto.tasks.max(默认4)

job的reduce数必须为0或者1

set hive.exec.mode.local.auto=true;

当一个job满足如下条件才能真正使用本地模式:

job合并输入小文件

set hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

合并文件数由mapred.max.split.size限制的大小决定

job合并输出小文件

set hive.merge.smallfiles.avgsize=256000000;当输出文件平均小于该值，启动新job合并文件

set hive.merge.size.per.task=64000000;合并之后的文件大小

JVM重利用

set mapred.job.reuse.jvm.num.tasks=20;

JVM重利用可以使得JOB长时间保留slot,直到作业结束，这在对于有较多任务和较多小文件的任务是非常有意义的，减少执行时间。当然这个值不能设置过大，因为有些作业会有reduce任务，如果reduce任务没有完成，则map任务占用的slot不能释放，其他的作业可能就需要等待。

压缩数据

set hive.exec.compress.output=true;

set mapred.output.compreession.codec=org.apache.hadoop.io.compress.GzipCodec;

set mapred.output.compression.type=BLOCK;

set hive.exec.compress.intermediate=true;

set hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;

set hive.intermediate.compression.type=BLOCK;

中间压缩就是处理hive查询的多个job之间的数据，对于中间压缩，最好选择一个节省cpu耗时的压缩方式

hive查询最终的输出也可以压缩

Hive Map优化

set mapred.map.tasks =10; 无效

(1)默认map个数

default_num=total_size/block_size;

(2)期望大小

goal_num=mapred.map.tasks;

(3)设置处理的文件大小

split_size=max(mapred.min.split.size,block_size);

split_num=total_size/split_size;

(4)计算的map个数

compute_map_num=min(split_num,max(default_num,goal_num))

经过以上的分析，在设置map个数的时候，可以简答的总结为以下几点：

增大mapred.min.split.size的值

如果想增加map个数，则设置mapred.map.tasks为一个较大的值

如果想减小map个数，则设置mapred.min.split.size为一个较大的值

情况1：输入文件size巨大，但不是小文件

情况2：输入文件数量巨大，且都是小文件，就是单个文件的size小于blockSize。这种情况通过增大mapred.min.split.size不可行，需要使用combineFileInputFormat将多个input path合并成一个InputSplit送给mapper处理，从而减少mapper的数量。

map端聚合

set hive.map.aggr=true;

推测执行

mapred.map.tasks.apeculative.execution

Hive Shuffle优化

Map端

io.sort.mb
io.sort.spill.percent
min.num.spill.for.combine
io.sort.factor
io.sort.record.percent

Reduce端

mapred.reduce.parallel.copies
mapred.reduce.copy.backoff
io.sort.factor
mapred.job.shuffle.input.buffer.percent
mapred.job.shuffle.input.buffer.percent
mapred.job.shuffle.input.buffer.percent

Hive Reduce优化

需要reduce操作的查询

group by,join,distribute by,cluster by...
order by比较特殊,只需要一个reduce
sum,count,distinct...

聚合函数

高级查询

推测执行

mapred.reduce.tasks.speculative.execution
hive.mapred.reduce.tasks.speculative.execution

Reduce优化

numRTasks = min[maxReducers,input.size/perReducer]
maxReducers=hive.exec.reducers.max
perReducer = hive.exec.reducers.bytes.per.reducer
hive.exec.reducers.max 默认：999
hive.exec.reducers.bytes.per.reducer 默认:1G
set mapred.reduce.tasks=10;直接设置
计算公式

Hive查询操作优化

join优化

关联操作中有一张表非常小
不等值的链接操作
set hive.auto.current.join=true;
hive.mapjoin.smalltable.filesize默认值是25mb
select /+mapjoin(A)/ f.a,f.b from A t join B f on (f.a=t.a)
hive.optimize.skewjoin=true;如果是Join过程出现倾斜，应该设置为true
set hive.skewjoin.key=100000; 这个是join的键对应的记录条数超过这个值则会进行优化
mapjoin

简单总结下,mapjoin的使用场景:

Bucket join
两个表以相同方式划分桶
两个表的桶个数是倍数关系
crete table order(cid int,price float) clustered by(cid) into 32 buckets;
crete table customer(id int,first string) clustered by(id) into 32 buckets;
select price from order t join customer s on t.cid=s.id

join 优化前

select m.cid,u.id from order m join customer u on m.cid=u.id where m.dt='2013-12-12';

join优化后

select m.cid,u.id from (select cid from order where dt='2013-12-12')m join customer u on m.cid=u.id;

group by 优化

hive.groupby.skewindata=true;如果是group by 过程出现倾斜应该设置为true

set hive.groupby.mapaggr.checkinterval=100000;--这个是group的键对应的记录条数超过这个值则会进行优化

count distinct 优化

优化前

优化后

select count(1) from (select distinct id from tablename) tmp;

select count(1) from (select id from tablename group by id) tmp;

优化前

select a,sum(b),count(distinct c),count(distinct d) from test group by a

优化后

select a,

           sum(b) as b,

           count(c) as c,

           count(d) as d

from(

      select a,

                0 as b,

                c,

                null as d

      from test

      group by a,c

      union all

      select a

                ,0 as b

                ,null as c

                ,d

      from test

      group by a,d

      union all

      select a

                ,b

                ,null as c

                ,null as d

      from test

)tmp1

group by a

;

Hive SQL 优化面试题整理的更多相关文章

深入浅出Hive企业级架构优化、Hive Sql优化、压缩和分布式缓存(企业Hadoop应用核心产品)
一.本课程是怎么样的一门课程(全面介绍) 1.1.课程的背景作为企业Hadoop应用的核心产品,Hive承载着FaceBook.淘宝等大佬 95%以上的离线统计,很多企业里的离线统 ...
Hive SQL优化思路
Hive的优化主要分为:配置优化.SQL语句优化.任务优化等方案.其中在开发过程中主要涉及到的可能是SQL优化这块. 优化的核心思想是: 减少数据量(例如分区.列剪裁) 避免数据倾斜(例如加参数.Ke ...
SQL优化(面试题)
因为现在面试经常需要问的需要SQL优化,问的具体操作步骤时候的常见做法,所以网上总结这些操作步骤: SQL优化的具体操作: 1.在表中建立索引,优先考虑where.group by使用到的字段. 2. ...
hive SQL优化之distribute by和sort by
近期在优化hiveSQL. 以下是一段排序,分组后取每组第一行记录的SQL INSERT OVERWRITE TABLE t_wa_funnel_distinct_temp PARTITION (pt ...
常见的SQL优化面试题
1.在表中建立索引,优先考虑where.group by使用到的字段. 2.查询条件中,一定不要使用select *,因为会返回过多无用的字段会降低查询效率.应该使用具体的字段代替*,只返回使用到的字 ...
不会看 Explain执行计划，劝你简历别写熟悉 SQL优化
昨天中午在食堂,和部门的技术大牛们坐在一桌吃饭,作为一个卑微技术渣仔默默的吃着饭,听大佬们高谈阔论,研究各种高端技术,我TM也想说话可实在插不上嘴. 聊着聊着突然说到他上午面试了一个工作6年的程序员, ...
Hive使用Calcite CBO优化流程及SQL优化实战
目录 Hive SQL执行流程 Hive debug简单介绍 Hive SQL执行流程 Hive 使用Calcite优化 Hive Calcite优化流程 Hive Calcite使用细则 Hive向 ...
数据库性能调优——sql语句优化(转载及整理) —— 篇1
一.问题的提出在应用系统开发初期,由于开发数据库数据比较少,对于查询SQL语句,复杂视图的的编写等体会不出SQL语句各种写法的性能优劣,但是如果将应用系统提交实 ...
sql优化点整理
此文是我最早开始sql优化至今整理的小知识点和经常遇到的问题,弄懂这些对优化大型的sql会有不少帮助 ---------------------------------使用了多余的外连接------- ...

随机推荐

02_Linux实操篇
第五章 VI和VIM编辑器 5.1. VI和VIM基本介绍 Vi编辑器是所有Unix及Linux系统下标准的编辑器,它的强大不逊色于任何最新的文本编辑器.由于对Unix及Linux系统的任何版本,Vi ...
编程小白的第一本python入门书电子版|百度网盘分享无偿获取|评分超高的python教材
点此进入网盘下载提取码:cr74 为了能让更多的编程小白轻松地入门编程,把高效学习法结合 Python 中的核心知识,写成了这本书.随意翻上几页,你就会发现这本书和其他编程书的不同,其中有大量的视觉化 ...
Python os.readlink() 方法
概述 os.readlink() 方法用于返回软链接所指向的文件.可能返回绝对或相对路径.高佣联盟 www.cgewang.com 在Unix中有效语法 readlink()方法语法格式如下: os ...
Skill 脚本演示
https://www.cnblogs.com/yeungchie/ Schematic ycBusNet.il 用于原理图中按照一定格式,批量创建 Bus . ycNetToPin.il 通过选中一 ...
CF R638 div2 F Phoenix and Memory 贪心线段树构造 Hall定理
LINK:Phoenix and Memory 这场比赛标题好评都是以凤凰这个单词开头的有凤来仪吧. 其实和Hall定理关系不大. 不过这个定理有的时候会由于先简述一下. 对于一张二分图左边集 ...
linux之FTP服务搭建 ( ftp文件传输协议 VSFTPd虚拟用户)
FTP服务搭建配置实验之前关闭防火墙 iptables -F iptables -X iptables -Z systemctl stop firewalld setenforce 0 1.ftp简 ...
odoo13之给模块添加自定义配置项
配置项效果图 odoo中给系统添加配置项有两种方式, 一种是使用odoo自带的设置,在设置中添加配置项:效果如下图, 第二种是在模块中自定义一个配置项管理菜单,在菜单form视图下添加配置项:效果如下 ...
OO第一单元（前四周）作业总结
OO第一单元(前四周)作业总结 OO第一单元(前四周)作业总结要求(第四次作业) 0.前言本次博客针对的是本人学习Java的第一阶段的三次作业的作业总结第一次作业的内容是:7-1 计算税率 (20 ...
Java 集合框架综述，这篇让你吃透！
一.集合框架图简化图: 说明:对于以上的框架图有如下几点说明 1.所有集合类都位于java.util包下.Java的集合类主要由两个接口派生而出:Collection和Map,Collection和 ...
8、Builder 建造者模式组装复杂的实例创造型模式
1.什么是Builder模式定义: 将一个复杂对象的构建与表示相分离,使得同样的构建过程可以创建不同的表示.大白话就是,你不需要知道这个类的内部是什么样的,只用把想使用的参数传进去就可以了,达到了解 ...

Hive SQL 优化面试题整理

Hive优化目标

常见问题：

Hive执行

执行计划

样例

Hive表优化

分区

静态分区

动态分区

分桶

数据

Hive Job优化

并行化执行

job合并输入小文件

job合并输出小文件

JVM重利用

压缩数据

Hive Map优化

map端聚合

推测执行

Hive Shuffle优化

Map端

Reduce端

Hive Reduce优化

需要reduce操作的查询

聚合函数

高级查询

推测执行

Reduce优化

Hive查询操作优化

join优化

简单总结下,mapjoin的使用场景:

Hive SQL 优化面试题整理的更多相关文章

随机推荐

热门专题