Hive记录-Hive调优

1.Join优化

a.map join

b.reduce join

小表为驱动表，或直接将小表加载到内存，做map端join,它的关键字为/*+MAP JOIN(t1)*/

如果想自动开启map端Join,可以通过hive.mapjoin.smalltable.filesize（默认为25000000）来定义小表的大小，一旦在这个范围之内，就会自动进行map端Join

2.Reducer的数量

Hive作业Reducer数量会直接影响作业效率，Hive的Reducer的是通过如下两个参数确定

参数1：hive.exec.reducers.bytes.per.reducer默认为1GB

参数2：hive.exec.reducers.max默认为999

Reducer的个数=min(参数2，总输入数据量/参数1)

3.列裁剪和分区裁剪---减少作业输入，略过一些不需要的数据

hive.optimize.cp（列裁剪）、hive.optimize.pruner（分区裁剪）默认开启

4.Group by优化

Map端合并

参数1：hive.map.aggr是否在Map端进行聚合，默认为true

参数2：hive.groupby.mapaggr.checkinterval在Map端进行聚合操作的条目数目，默认为100000.

防止数据倾斜：hive.groupby.skewindata

如select count(*) from table group by key，如有数据倾斜，以key=1为准，其他情况进行聚合

5.合并小文件

当文件数目过多时，会给HDFS带来压力，可以通过合并Map和Reduce的输出文件来减少文件数。

参数1：hive.merge.mapfiles=true 是否合并Map阶段的输出文件

参数2：hive.merge.mapredfiles=true 是否合并Reduce阶段的输出文件

参数3：hive.merge.size.per.task=256000000合并的文件的大小默认为256000000

6.Multi-group By和Multi-insert

hive特有的语法，可以在同一个查询语句中使用多个不相交的insert语句，只需扫描一遍全表

如from test insert overwrite table test1 select a,count(e) group by a... insert overwrite...

7.利用Union All特性

合并多个MapReduce作业：select union all select---先合并再分组

8.并行执行---提高效率，但会抢占资源

参数1：hive.exec.parallel=true

9.全排序

hive-mapreduce：order by/sort by

Hive记录-Hive调优的更多相关文章

Hive on MR调优
当HiveQL跑不出来时,基本上是数据倾斜了,比如出现count(distinct),groupby,join等情况,理解 MR 底层原理,同时结合实际的业务,数据的类型,分布,质量状况等来实际的考虑 ...
大数据学习day28-----hive03------1. null值处理，子串，拼接，类型转换 2.行转列，列转行 3. 窗口函数（over，lead,lag等函数） 4.rank（行号函数）5. json解析函数 6.jdbc连接hive，企业级调优
1. null值处理,子串,拼接,类型转换 (1) 空字段赋值(null值处理) 当表中的某个字段为null时,比如奖金,当你要统计一个人的总工资时,字段为null的值就无法处理,这个时候就可以使用N ...
Hive| 压缩| 存储| 调优
Hadoop压缩配置修改Hadoop集群具有Snappy压缩方式: 查看hadoop支持的压缩方式 [kris@hadoop101 datas]$ hadoop checknative 将编译好的支 ...
大数据：Hive常用参数调优
1.limit限制调整一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果. 有一个配置属性可以开启,避免这种情况---对数据源进行抽样 hive.limit.optimize.e ...
Hive记录-Hive介绍（转载）
1.Hive是什么? Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,将类 SQL 语句转换为 MapReduce 任务执 ...
Hive记录-Hive on Spark环境部署
1.hive执行引擎 Hive默认使用MapReduce作为执行引擎,即Hive on mr.实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hive on ...
Hive记录-Hive常用命令操作
1.hive支持四种数据模型 • external table ---外部表:Hive中的外部表和表很类似,但是其数据不是放在自己表所属的目录中,而是存放到别处,这样的好处是如果你要删除这个外部表,该 ...
Hive记录-hive权限控制
在使用Hive的元数据配置权限之前必须现在hive-site.xml中配置两个参数,配置参数如下: <property> <name>hive.security.authori ...
Linux 文件时间记录属性调优
Linux 文件时间属性介绍 atime:(access time)显示的是文件中的数据最后被访问的时间,比如系统的进程直接使用或通过一些命令和脚本间接使用.(执行一些可执行文件或脚本) mtime: ...

随机推荐

10-Python3从入门到实战—基础之函数
Python从入门到实战系列--目录函数的定义函数是组织好的,可重复使用的,用来实现单一,或相关联功能的代码段. 函数的语法 def 函数名(参数列表): 函数体函数代码块以 def 关键词开头 ...
nodefs模块的使用demo
为什么要使用递归?因为stat本身就是一个异步的函数所有存在异步问题不能够进行循环遍历. 在使用该种方法时候需要注意的一点是必须要在箭头标记处进行数据数组的存取.否则会由于异步问题导致输出空或者其他问 ...
php多进程pcntl学习-僵尸进程
上个月写的文章,php多进程pcntl学习(一)现在发现并不完整,因为虽然提到了关闭子进程,但是并没有回收子进程,简单的说就是当子进程比父进程先退出,而父进程没对其做任何处理的时候,子进程将会变成僵尸 ...
python学习笔记三——控制语句
2.5 运算符与表达式 2.5.1 算术运算符和算术表达式算术运算符包括四则运算符.求模运算符和求幂运算符. 算术运算符加减乘除:+ - * / 表达式:x+y x-y x*y x/y ...
PHP5.5特性
1.PHP生成器(使用yield关键字) <?php //使用yield关键字实现平方的生成器,在循环结构中则生成的是数组 function do2pos($n){ for($i=1; $i&l ...
CnPack实用功能推荐
已经使用CnPack好几年了,这个插件太好了,现在离开它我都不会写代码了,现在将使用心得与大家分享一下: 1.代码助手非常好用,只需要输入几个字符后,自动出现提示列表,真是懒人的福音呀. 2.代码高亮 ...
Uva101-STL模拟
一道有点复杂的STL模拟题,对STL迭代器不太熟悉改了好久,最后总算A了出来. 感觉用数组更方便...但是为了练习STL嘛对比白书上的代码,我写的还是傻了点.一开始没有理解四个操作的意思,单纯的模拟 ...
LightOJ - 1074 Extended Traffic（标记负环）
题意:有n个城市,每一个城市有一个拥挤度ai,从一个城市u到另一个城市v的时间为:(au-av)^3,存在负环.问从第一个城市到达第k个城市所话的时间,如果不能到达,或者时间小于3输出?否则输出所花的 ...
codeforces 1B Spreadsheets
In the popular spreadsheets systems (for example, in Excel) the following numeration of columns is u ...
一个简单的mock server
在前后端分离的项目中, 前端无需等后端接口提供了才调试, 后端无需等第三方接口提供了才调试, 基于“契约”,可以通过mock server实现调试, 下面是一个简单的mock server,通过pyt ...

Hive记录-Hive调优

Hive记录-Hive调优的更多相关文章

随机推荐

热门专题