Hive参数层面常用优化

1、hive数据仓库权限问题:

set hive.warehouse.subdir.inherit.perms=true;

2、HiveServer2的内存

连接的个数越多压力越大，可以加大内存；可以通过-Xmx设置，在脚本中设置：-Xmx=2048m 甚至 -Xmx=4g

3、关闭推测式任务：默认是打开的

set mapreduce.reduce.speculative=false;

set mapred.map.tasks.speculative.execution=false;

set mapred.reduce.tasks.speculative.execution=false;

4、客户端: 默认是关闭的

显示当前数据库：

set hive.cli.print.current.db = true;

显示头信息：

set hive.cli.print.header = true;

5、并行执行

每个查询被hive转化成一个或者多个stage，一个stage就是一个mapreduce作业；如果一个job有多个stage，并且每个stage是依赖的，那么这个job就不可以并行执行；如果stage之间关联性不大，则可以并行化执行，减少执行时间。并行数视集群而定，越大越好。

set hive.exec.parallel=true;    //默认是关闭的

set hive.exec.parallel.thread.number=;   //默认是8

对比执行时间：

set hive.exec.parallel=false;

select t1.event_time,t2.event_time,t3.event_time from(

select ordernumber, max(event_time) as event_time from order_created group by ordernumber

) t1

left outer join (

select ordernumber, max(event_time) as event_time from order_picked group by ordernumber

) t2 on t1.ordernumber = t2.ordernumber

left outer join (

select ordernumber, max(event_time) as event_time from order_shipped group by ordernumber

) t3 on t1.ordernumber = t3.ordernumber;

一共5个mr job，job一个个的按顺序执行，一共花费94.974s

set hive.exec.parallel=true;

set hive.exec.parallel.thread.number=;

select t1.event_time,t2.event_time,t3.event_time from(

select ordernumber, max(event_time) as event_time from order_created group by ordernumber

) t1

left outer join (

select ordernumber, max(event_time) as event_time from order_picked group by ordernumber

) t2 on t1.ordernumber = t2.ordernumber

left outer join (

select ordernumber, max(event_time) as event_time from order_shipped group by ordernumber

) t3

on t1.ordernumber = t3.ordernumber;

一共5个mr job，其中有3个job同时启动并行执行，一共花费47.32s

7、Local Mode：小表在本地执行，最好是关闭

set hive.exec.mode.local.auto=true;

8、通过explain查看执行计划，查看有几个stage以及执行流程

explain select * from page_views;

explain extended select * from page_views;

9、队列设置：往指定的队列提交任务

set mapred.queue.name = hive

set mapred.job.queue.name = hive

有些版本需要两个都设置才好用，设置一个还不好使

设置任务的优先级别：

set mapred.job.priority = HIGH

10、JVM重用

测试用例：3台虚拟机，内存512M，5000个小文件大小约8G，不重用JVM耗时约1个小时，重用JVM耗时约35分钟；

结论：对于大量小文件的job，开启JVM重用可减少运行时间；

set mapred.job.reuse.jvm.num.tasks = ;

每个jvm执行多少个task，默认为1表示一个jvm运行一个task后就销毁，-1表示无限制；该参数也不是越大越好，建议设置到15-20个就够了；

11、分桶

set hive.enforce.bucketing=true;

set hive.enforce.sorting=true;

Hive参数层面常用优化的更多相关文章

Hive 常用优化参数
常用调优测试语句 : ①显示当前hive环境的参数值: set 参数名; 如: hive> set mapred.map.tasks;mapred.map.tasks; ②设置hi ...
hadoop入门到实战（6）hive常用优化方法总结
问题导读:1.如何理解列裁剪和分区裁剪?2.sort by代替order by优势在哪里?3.如何调整group by配置?4.如何优化SQL处理join数据倾斜?Hive作为大数据领域常用的数据仓库 ...
hive参数配置及任务优化
一.hive常用参数 0.常用参数 --@Name: --@Description: --@Type:全量加载 --@Author:--- --@CreateDate: --@Target: --@S ...
写好Hive 程序的若干优化技巧和实际案例
使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑.但是一个”好”的Hive程序需要对Hive运行机制有深入的了解,像理解mapreduce作业一样理解Hive QL才能写出正确.高效 ...
hive参数配置详细
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.i ...
hive查询注意及优化tips
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具.使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别, 所以需要去掉原有关系型数 ...
[Hive] - Hive参数含义详解
hive中参数分为三类,第一种system环境变量信息,是系统环境变量信息:第二种是env环境变量信息,是当前用户环境变量信息:第三种是hive参数变量信息,是由hive-site.xml文件定义的以 ...
linux内核参数注释与优化
目录 1.linux内核参数注释 2.两种修改内核参数方法 3.内核优化参数生产配置参数解释由网络上收集整理,常用优化参数对比了网上多个实际应用进行表格化整理,使查看更直观. 学习linux也有不少 ...
MongoDB在Linux下常用优化设置
MongoDB在Linux下常用优化设置以下是一些MongoDB推荐的常用优化设置.在生产环境下选取合适的参数值,例如预读值和默认文件描述符数目等,会对系统性能有很大的影响. 1.关闭数据库文件的 ...

随机推荐

bzoj1536: [POI2005]Akc- Special Forces Manoeuvres
Description 在一次军事行动中有一批空降兵要降落在沙漠中拆除炸弹. 空降兵按照预定的顺序跳伞并降落到指定的位置.一旦降落他们便呆在原地不动了. 每个空降兵都有一个生存半径. 如果炸弹与他的距 ...
tespeed-测试网速的Python工具
1.安装(环境CentOS7) #pip install lxml #wget wget http://sourceforge.net/projects/socksipy/files/socksipy ...
Python的更多内容
到目前为止,我们已经学习了绝大多数常用的Python知识.在这一章中,我们将要学习另外一些方面的Python知识,从而使我们对Python的了解更加完整 . 1.特殊的方法在类中有一些特殊的方法具 ...
android学习笔记九——RatingBar
RatingBar==>星级评分条 RatingBar和SeekBar十分相似,它们甚至有相同的父类:AbsSeekBar.两者都允许用户通过拖动来改变进度: 两者最大的区别在于RatingBa ...
c++中的peek函数
c++中 cin.peek()函数其返回值是一个char型的字符,返回值是指针指向的当前字符, 但是只是观测,指针任停留在当前位置,并不后移.如果要访问的字符是文件结束符,则函数值是EOF(-1); ...
第二次正式java web开发项目的总结（回收站恢复）
都说互联网行业加班很是厉害,记得前不久网上还晒出了几个大城市互联网行业的加班排名调查,但是我们公司,或者说我们项目组倒是非常的例外,进公司也差不多半年了,才仅仅上个月有一个周六加过一天班而已. 不过好 ...
C#学习笔记三: C#2.0泛型可控类型匿名方法和迭代器
前言 C#1.0的委托特性使方法作为其他方法的参数来传递,而C#2.0 中提出的泛型特性则使类型可以被参数化,从而不必再为不同的类型提供特殊版本的实现方法.另外C#2.0还提出了可空类型,匿名方法和迭 ...
Redis常用方法
首先构建非切片连接池jedisPool对象,写好配置redis连接的方法. /** * 构建redis切片连接池 * * @param ip * @param port * @return Jedis ...
centos利用cloudflare的bpf-tools实现ddos防护
概念利用BPF( Berkeley Packet Filter)工具集结合iptables的xt_bpf模块可以实现高性能包过滤,从而应对大规模的ddos攻击.BPF Tools包含一组简单的pyt ...
ylbtech-Recode(记录)-数据库设计
ylbtech-dbs:ylbtech-Recode(记录)-数据库设计 -- =============================================-- DatabaseName ...

Hive参数层面常用优化

Hive参数层面常用优化的更多相关文章

随机推荐

热门专题