hive优化总结

一、表设计

合理分表

合理设计表分区，静态分区、动态分区

二、扫描相关

1、谓词下推（Predicate Push Down）

2、列裁剪（Column Pruning）

在读数据的时候，只关心感兴趣的列，而忽略其他列

对于查询：select a,b from src where e < 10

其中，src包含5个列(a、b、c、d、e)，列c、d将会被忽略，只会读取a,b,e列

选项默认为真，hive.optimize.cp=true

3、分区剪裁（Partition Pruning）

在查询的过程中减少不必要的分区

对于下列查询：select * from t1 join (select * from t2) subq on (t1.c1 = subq.c2) where subq.prtn =100;

会在子查询中就考虑subq.prtn =100条件，从而减少读入的分区数目

选项默认为真，hive.optimize.pruner=true

三、关联JOIN相关

1、JOIN操作左边为小表

应该将条目少的表/子查询放在Join操作符的左边。

原因是在Join操作的Reduce阶段，位于Join操作符左边的表的内容会被加载到内存，将条目少的表放在左边可以有效减少OOM（内存溢出）的几率

原理就是关系数据库中驱动表与被驱动表

如果是mapjoin，可以放在右边

2、JOIN启动的job个数

如果join的key相同，不管有多少个表，都会合并为一个Map-Reduce

一个Map-Reduce(Tez)任务，而不是‘n’个

在做outer join的时候也是一样

insert over write table pv_users select pv.pageid,u.age from page_view pv join user u on (pv.userid=u.userid) join newuser x on (u.userid = x.userid)

3、MapJoin

join操作在map阶段完成，不再需要reduce，前提条件是需要的数据在map的过程可以访问到

新版本,Hint已经去了，这里只是演示，应该尽可能使用mapjoin

不会倾斜，默认64M来并发处理数据

对表的大小有限制，通常来讲大于100M，就做不了了

insert over write table pv_users select /*+MAPJOIN(pv)*/pv.pageid,u.age from page_view pv join user u on (pv.userid=u.userid);

需要设置的相关数据hive.join.emit.inter-1,hive.mapjoin.size.key,hive.map-join.cache.numrows。

4、join不支持不等值连接

!=、<>、>、<在join的on条件中不支持

select ……from ……

join ……

on (a.key!=b.key)

因为如果用不等值号的话，它会查其他节点上的数据，那么其他查不到的，mapreduce是不支持这样的机制，所以hive是不支持不等值连接的

四、分组Group By相关

1、Skew In Data

主要关注的是数据倾斜

hive.groupby.skewindata = true

当选项设定为true，生成的查询计划会有两个MR Job。第一个MR Job中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的

第二个MR Job再根据预处理的数据结果按照Group By Key分布到Reduce中（这个过程可以保证相同的Group By Key被分布到一个Reduce中），最后完成最终的聚合操作

没法通过部分值推导出最终值的，如中位数和众数

五、合并小文件

合并功能会增加任务运行时间

合并操作的性能很大程度上取决与“单个reduce端输出文件大小”。Reduce端的输出越大，耗时越长

合并操作会对每个Hive任务增加一次MapRedce任务

原因：

Hive在处理时，Client会从MetaStore中把文件的名字读到内存中，小文件过多会导致在SQL解析过程中，可能就根本就解析不出来

通过合并Map和Reduce的结果文件来消除小文件影响。需要设定的参数：

hive.merge.mapfiles=true,是否合并Map输入文件默认为true。

hive.merge.mapredfiles=false,设定是否合并Reduce输出文件，默认为false。

hive.merge.size.per.task=256*1000*1000，设定合并文件的大小，默认为256000000。

六、多作业

共享中间结果集

多作业共用输入或输出，如下场景

每日几千个作业访问大日志表trackinfo

访问多个表的相同统计存在于很多作业里面

常用复杂或低效统计统计给出，以避免上层作业过多计算

七、参数调优

有时会起到很好效果

如果，您认为阅读这篇博客让您有些收获，不妨点击一下右下角的【推荐】。
如果，您希望更容易地发现我的新博客，不妨点击一下左下角的【关注我】。
如果，您对我的博客所讲述的内容有兴趣，请继续关注我的后续博客，我是【刘超★ljc】。

本文版权归作者，禁止转载，否则保留追究法律责任的权利。

hive优化总结的更多相关文章

Hive 12、Hive优化
要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜. 理解hadoop的核心能力,是hive优化的根本. 长期观察hadoop处理数据的过程,有几个显著的特征: 1. ...
hive优化之——控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务.主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文 ...
Hive优化案例
1.Hadoop计算框架的特点数据量大不是问题,数据倾斜是个问题. jobs数比较多的作业效率相对比较低,比如即使有几百万的表,如果多次关联多次汇总,产生十几个jobs,耗时很长.原因是map re ...
一起学Hive——总结常用的Hive优化技巧
今天总结本人在使用Hive过程中的一些优化技巧,希望给大家带来帮助.Hive优化最体现程序员的技术能力,面试官在面试时最喜欢问的就是Hive的优化技巧. 技巧1.控制reducer数量下面的内容是我 ...
大数据技术之_08_Hive学习_04_压缩和存储（Hive高级）+ 企业级调优（Hive优化）
第8章压缩和存储(Hive高级)8.1 Hadoop源码编译支持Snappy压缩8.1.1 资源准备8.1.2 jar包安装8.1.3 编译源码8.2 Hadoop压缩配置8.2.1 MR支持的压缩 ...
大数据开发实战：Hive优化实战3-大表join大表优化
5.大表join大表优化如果Hive优化实战2中mapjoin中小表dim_seller很大呢?比如超过了1GB大小?这种就是大表join大表的问题.首先引入一个具体的问题场景,然后基于此介绍各自优 ...
大数据开发实战：Hive优化实战1-数据倾斜及join无关的优化
Hive SQL的各种优化方法基本都和数据倾斜密切相关. Hive的优化分为join相关的优化和join无关的优化,从项目的实际来说,join相关的优化占了Hive优化的大部分内容,而join相关的 ...
Hadoop生态圈-hive优化手段-作业和查询优化
Hadoop生态圈-hive优化手段-作业和查询优化作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
【转】Hive优化总结
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜. 理解Hadoop的核心能力,是hive优化的根本.这是这一年来,项目组所有成员宝贵的经验总结. 长期观察hadoo ...
hive 优化（转）
Hive优化 Hive优化目标在有限的资源下,执行效率更高常见问题数据倾斜 map数设置 reduce数设置其他 Hive执行 HQL --> Job --> Map/Reduce ...

随机推荐

STM32+IAP方案实现网络升级应用固件
关注了这个概念有些日子了,这段时间总算有机会实战==网络升级应用固件,这里记录下遇到的问题,及解决方案. 原理与网上流传的串口作为传输手段一致:不同之处,无非我这里使用了网络设备传输.==(lwip ...
android:Layout_weight的深刻理解
最近写Demo,突然发现了Layout_weight这个属性,发现网上有很多关于这个属性的有意思的讨论,可是找了好多资料都没有找到一个能够说的清楚的,于是自己结合网上资料研究了一下,终于迎刃而解,写出 ...
JAVA反射使用手记
本篇文章为在工作中使用JAVA反射的经验总结,也可以说是一些小技巧,以后学会新的小技巧,会不断更新.本文不准备讨论JAVA反射的机制,网上有很多,大家随便google一下就可以了. 在开始之前,我先定 ...
python 安装whl文件
对于安装whl格式的文件,首先要安装wheel包利用 pip install wheel或下载再安装: 下载地址: https://pypi.python.org/pypi/wheel 解压后安装: ...
Android -- 消息处理机制源码分析(Looper,Handler,Message)
android的消息处理有三个核心类:Looper,Handler和Message.其实还有一个Message Queue(消息队列),但是MQ被封装到Looper里面了,我们不会直接与MQ打交道,因 ...
BI项目简单备份策略
在项目的开发中,备份是一个很重要的操作和良好的开发习惯,下面我们就针对BI相关项目的备份说一下备份策略前端:Cognos 后端:SSIS+View+Procedure 服务器A装了Cognos内容库 ...
python import 错误 TypeError: 'module' object is not callable
python import 错误 TypeError: 'module' object is not callable 在这里,有 Person.py test.py; 在 test.py 里面 im ...
HTTP请求头 If-Modified-Since
来自:http://www.jm47.com/g/91174.htm 一直以来没有留意过HTTP请求头的IMS(If-Modified-Since)标签. 最近在分析Squid的access.log日 ...
Ubuntu 设置UFW防火墙
1:安装 sudo apt-get install ufw 2:启用 sudo ufw enable sudo ufw default deny 运行以上两条命令后,开启了防火墙,并在系统启动时自动开 ...
jquery 图片懒加载
jquery 图片懒加载 CreationTime--2018年7月1日14点45分 Author:Marydon 1.源码展示 (function(a){a.fn.lazyload=functi ...

hive优化总结

hive优化总结的更多相关文章

随机推荐

热门专题