Hive优化

Hive的存储层依托于HDFS，Hive的计算层依托于MapReduce，一般Hive的执行效率主要取决于SQL语句的执行效率，因此，Hive的优化的核心思想是MapReduce的优化。

1、查看Hive执行计划（小白慎用）

Hive的SQL语句在执行之前需要将SQL语句转换成MapReduce任务，因此需要了解具体的转换过程，可以在SQL语句中输入如下命令查看具体的执行计划。

--查看执行计划，添加extended关键字可以查看更加详细的执行计划

explain [extended] query

2、Hive的抓取策略

Hive的某些SQL语句需要转换成MapReduce的操作，某些SQL语句就不需要转换成MapReduce操作，但是同学们需要注意，理论上来说，所有的SQL语句都需要转换成MapReduce操作，只不过Hive在转换SQL语句的过程中会做部分优化，使某些简单的操作不再需要转换成MapReduce，例如：

（1）select 仅支持本表字段

（2）where仅对本表字段做条件过滤

--查看Hive的数据抓取策略

Set hive.fetch.task.conversion=none/more;

3、Hive本地模式

类似于MapReduce的操作，Hive的运行也分为本地模式和集群模式，在开发阶段可以选择使用本地执行，提高SQL语句的执行效率，验证SQL语句是否正确。

--设置本地模式

set hive.exec.mode.local.auto=true;

注意：要想使用Hive的本地模式，加载数据文件大小不能超过128M,如果超过128M,就算设置了本地模式，也会按照集群模式运行。

--设置读取数据量的大小限制

set hive.exec.mode.local.auto.inputbytes.max=128M

4、Hive并行模式

在SQL语句足够复杂的情况下，可能在一个SQL语句中包含多个子查询语句，且多个子查询语句之间没有任何依赖关系，此时，可以Hive运行的并行度

--设置Hive SQL的并行度

set hive.exec.parallel=true;

注意：Hive的并行度并不是无限增加的，在一次SQL计算中，可以通过以下参数来设置并行的job的个数

--设置一次SQL计算允许并行执行的job个数的最大值

set hive.exec.parallel.thread.number

5、Hive严格模式

Hive中为了提高SQL语句的执行效率，可以设置严格模式，充分利用Hive的某些特点。

-- 设置Hive的严格模式

set hive.mapred.mode=strict;

注意：当设置严格模式之后，会有如下限制：

（1）对于分区表，必须添加where对于分区字段的条件过滤

（2）order by语句必须包含limit输出限制

（3）限制执行笛卡尔积的查询

6、Hive排序

在编写SQL语句的过程中，很多情况下需要对数据进行排序操作，Hive中支持多种排序操作适合不同的应用场景。

1、Order By - 对于查询结果做全排序，只允许有一个reduce处理

（当数据量较大时，应慎用。严格模式下，必须结合limit来使用）

2、Sort By - 对于单个reduce的数据进行排序

3、Distribute By - 分区排序，经常和Sort By结合使用

4、Cluster By - 相当于 Sort By + Distribute By

（Cluster By不能通过asc、desc的方式指定排序规则；

可通过 distribute by column sort by column asc|desc 的方式）

7、Hive join

1、Hive 在多个表的join操作时尽可能多的使用相同的连接键，这样在转换MR任务时会转换成少的MR的任务。

2、手动Map join:在map端完成join操作

--SQL方式，在SQL语句中添加MapJoin标记（mapjoin hint）

SELECT  /*+ MAPJOIN(smallTable) */  smallTable.key,  bigTable.value

FROM  smallTable  JOIN  bigTable  ON  smallTable.key  =  bigTable.key;

3、开启自动的Map Join

--通过修改以下配置启用自动的mapjoin：

set hive.auto.convert.join = true;

--（该参数为true时，Hive自动对左边的表统计量，如果是小表就加入内存，即对小表使用Map join）

--相关配置参数：

hive.mapjoin.smalltable.filesize;

--（大表小表判断的阈值，如果表的大小小于该值则会被加载到内存中运行）

hive.ignore.mapjoin.hint；

--（默认值：true；是否忽略mapjoin hint 即mapjoin标记）

4、大表join大表

（1）空key过滤：有时join超时是因为某些key对应的数据太多，而相同key对应的数据都会发送到相同的reducer上，从而导致内存不够。此时我们应该仔细分析这些异常的key，很多情况下，这些key对应的数据是异常数据，我们需要在SQL语句中进行过滤。

（2）空key转换：有时虽然某个key为空对应的数据很多，但是相应的数据不是异常数据，必须要包含在join的结果中，此时我们可以表a中key为空的字段赋一个随机的值，使得数据随机均匀地分不到不同的reducer上

8、Map-Side聚合

Hive的某些SQL操作可以实现map端的聚合，类似于MR的combine操作

--通过设置以下参数开启在Map端的聚合：

set hive.map.aggr=true;

--相关配置参数：

--map端group by执行聚合时处理的多少行数据（默认：100000）

hive.groupby.mapaggr.checkinterval：

--进行聚合的最小比例（预先对100000条数据做聚合，若聚合之后的数据量/100000的值大于该配置0.5，则不会聚合）

hive.map.aggr.hash.min.reduction：

--map端聚合使用的内存的最大值

hive.map.aggr.hash.percentmemory：

--是否对GroupBy产生的数据倾斜做优化，默认为false

hive.groupby.skewindata

9、合并小文件

Hive在操作的时候，如果文件数目小，容易在文件存储端造成压力，给hdfs造成压力，影响效率

--设置合并属性

--是否合并map输出文件：

set hive.merge.mapfiles=true

--是否合并reduce输出文件：

set hive.merge.mapredfiles=true;

--合并文件的大小：

set hive.merge.size.per.task=256*1000*1000

10、合理设置Map以及Reduce的数量

--Map数量相关的参数

--一个split的最大值，即每个map处理文件的最大值

set mapred.max.split.size

--一个节点上split的最小值

set mapred.min.split.size.per.node

--一个机架上split的最小值

set mapred.min.split.size.per.rack

--Reduce数量相关的参数

--强制指定reduce任务的数量

set mapred.reduce.tasks

--每个reduce任务处理的数据量

set hive.exec.reducers.bytes.per.reducer

--每个任务最大的reduce数

set hive.exec.reducers.max

11、JVM重用

/*

适用场景：

	1、小文件个数过多

	2、task个数过多

缺点：

	设置开启之后，task插槽会一直占用资源，不论是否有task运行，直到所有的task即整个job全部执行完成时，才会释放所有的task插槽资源！

*/

set mapred.job.reuse.jvm.num.tasks=n;--（n为task插槽个数）

Hive优化（十一）的更多相关文章

Hive 12、Hive优化
要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜. 理解hadoop的核心能力,是hive优化的根本. 长期观察hadoop处理数据的过程,有几个显著的特征: 1. ...
hive优化之——控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务.主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文 ...
Hive优化案例
1.Hadoop计算框架的特点数据量大不是问题,数据倾斜是个问题. jobs数比较多的作业效率相对比较低,比如即使有几百万的表,如果多次关联多次汇总,产生十几个jobs,耗时很长.原因是map re ...
一起学Hive——总结常用的Hive优化技巧
今天总结本人在使用Hive过程中的一些优化技巧,希望给大家带来帮助.Hive优化最体现程序员的技术能力,面试官在面试时最喜欢问的就是Hive的优化技巧. 技巧1.控制reducer数量下面的内容是我 ...
大数据技术之_08_Hive学习_04_压缩和存储（Hive高级）+ 企业级调优（Hive优化）
第8章压缩和存储(Hive高级)8.1 Hadoop源码编译支持Snappy压缩8.1.1 资源准备8.1.2 jar包安装8.1.3 编译源码8.2 Hadoop压缩配置8.2.1 MR支持的压缩 ...
大数据开发实战：Hive优化实战3-大表join大表优化
5.大表join大表优化如果Hive优化实战2中mapjoin中小表dim_seller很大呢?比如超过了1GB大小?这种就是大表join大表的问题.首先引入一个具体的问题场景,然后基于此介绍各自优 ...
大数据开发实战：Hive优化实战1-数据倾斜及join无关的优化
Hive SQL的各种优化方法基本都和数据倾斜密切相关. Hive的优化分为join相关的优化和join无关的优化,从项目的实际来说,join相关的优化占了Hive优化的大部分内容,而join相关的 ...
Hadoop生态圈-hive优化手段-作业和查询优化
Hadoop生态圈-hive优化手段-作业和查询优化作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
【转】Hive优化总结
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜. 理解Hadoop的核心能力,是hive优化的根本.这是这一年来,项目组所有成员宝贵的经验总结. 长期观察hadoo ...

随机推荐

模板引擎总结(Thymeleaf，FreeMarker，Enjoy，Velocity，JSP等)
在java领域,表现层技术主要有以下几种, (1)jsp; (2)freemarker; (3)velocity; (4)thymeleaf; (5)Enjoy; 1.JSP 优点: 1.功能强大,可 ...
kNN进邻算法
一.算法概述 (1)采用测量不同特征值之间的距离方法进行分类优点: 精度高.对异常值不敏感.无数据输入假定. 缺点: 计算复杂度高.空间复杂度高. (2)KNN模型的三个要素 kNN算法模型实际上就 ...
数据结构与算法-queue
队列和stack类似,stack是先进后出,而queue的先进先出,也是一种特殊的线性表基本概念概念队列是一种特殊的线性表队列仅在线性表的两端进行操作队头(Front):取出数据元素的一端 ...
Autoit安装及启动
1.Autoit下载: 官网下载地址:https://www.autoitscript.com/site/autoit/downloads/ 提供百度网盘下载:https://pan.baidu.co ...
[转帖]PKI系统深入介绍
PKI系统深入介绍 https://blog.csdn.net/liuhuiyi/article/details/7776825 2012年07月23日 20:17:01 liuhuiyi 阅读数 4 ...
IDEA自动生成的注释模板
使用效果如下: * * @功能描述 : $params$ * @return $returns$ * @author xuetao */ 其中 $params$的表达式如下: groovyScript ...
ajax同源策略，jsonP跨域访问
浏览器处于安全性的考虑,要求ajax请求,必须满足同源策略规定:访问的协议://域名:端口号都相同时满足同源策略,浏览器可以正确解析数据,否则如果有一项不满足要求,则属于跨域访问,浏览器可以正常获取 ...
django初步了解4
django单表查询必知必会13条 1.all() 查询所有 QuerySet res=models.Book.objects.all()#惰性查询 print(res) for i in res: ...
Selenium IDE for firefox
第一次接触selenium. 首先, selenium支持的 Firefox版本是17.0~34.x. 打开火狐历史版本:http://ftp.mozilla.org/pub/firefox/rele ...
Redis分布式锁解决抢购问题
转:https://segmentfault.com/a/1190000011421467 废话不多说,首先分享一个业务场景-抢购.一个典型的高并发问题,所需的最关键字段就是库存,在高并发的情况下每次 ...

Hive优化（十一）