Hive参数层面常用优化
1、hive数据仓库权限问题:
set hive.warehouse.subdir.inherit.perms=true;
2、HiveServer2的内存
连接的个数越多压力越大,可以加大内存;可以通过-Xmx设置,在脚本中设置:-Xmx=2048m 甚至 -Xmx=4g
3、关闭推测式任务:默认是打开的
set mapreduce.reduce.speculative=false;
set mapred.map.tasks.speculative.execution=false;
set mapred.reduce.tasks.speculative.execution=false;
4、客户端: 默认是关闭的
显示当前数据库:
set hive.cli.print.current.db = true;
显示头信息:
set hive.cli.print.header = true;
5、并行执行
每个查询被hive转化成一个或者多个stage,一个stage就是一个mapreduce作业;如果一个job有多个stage,并且每个stage是依赖的,那么这个job就不可以并行执行;如果stage之间关联性不大,则可以并行化执行,减少执行时间。并行数视集群而定,越大越好。
set hive.exec.parallel=true; //默认是关闭的
set hive.exec.parallel.thread.number=; //默认是8
对比执行时间:
set hive.exec.parallel=false;
select t1.event_time,t2.event_time,t3.event_time from(
select ordernumber, max(event_time) as event_time from order_created group by ordernumber
) t1
left outer join (
select ordernumber, max(event_time) as event_time from order_picked group by ordernumber
) t2 on t1.ordernumber = t2.ordernumber
left outer join (
select ordernumber, max(event_time) as event_time from order_shipped group by ordernumber
) t3 on t1.ordernumber = t3.ordernumber;
一共5个mr job,job一个个的按顺序执行,一共花费94.974s
set hive.exec.parallel=true;
set hive.exec.parallel.thread.number=;
select t1.event_time,t2.event_time,t3.event_time from(
select ordernumber, max(event_time) as event_time from order_created group by ordernumber
) t1
left outer join (
select ordernumber, max(event_time) as event_time from order_picked group by ordernumber
) t2 on t1.ordernumber = t2.ordernumber
left outer join (
select ordernumber, max(event_time) as event_time from order_shipped group by ordernumber
) t3
on t1.ordernumber = t3.ordernumber;
一共5个mr job,其中有3个job同时启动并行执行,一共花费47.32s
7、Local Mode:小表在本地执行,最好是关闭
set hive.exec.mode.local.auto=true;
8、通过explain查看执行计划,查看有几个stage以及执行流程
explain select * from page_views;
explain extended select * from page_views;
9、队列设置:往指定的队列提交任务
set mapred.queue.name = hive
set mapred.job.queue.name = hive
有些版本需要两个都设置才好用,设置一个还不好使
设置任务的优先级别:
set mapred.job.priority = HIGH
10、JVM重用
测试用例:3台虚拟机,内存512M,5000个小文件大小约8G,不重用JVM耗时约1个小时,重用JVM耗时约35分钟;
结论:对于大量小文件的job,开启JVM重用可减少运行时间;
set mapred.job.reuse.jvm.num.tasks = ;
每个jvm执行多少个task,默认为1表示一个jvm运行一个task后就销毁,-1表示无限制;该参数也不是越大越好,建议设置到15-20个就够了;
11、分桶
set hive.enforce.bucketing=true;
set hive.enforce.sorting=true;
Hive参数层面常用优化的更多相关文章
- Hive 常用优化参数
常用调优测试语句 : ①显示当前hive环境的参数值: set 参数名; 如: hive> set mapred.map.tasks;mapred.map.tasks; ②设置hi ...
- hadoop入门到实战(6)hive常用优化方法总结
问题导读:1.如何理解列裁剪和分区裁剪?2.sort by代替order by优势在哪里?3.如何调整group by配置?4.如何优化SQL处理join数据倾斜?Hive作为大数据领域常用的数据仓库 ...
- hive参数配置及任务优化
一.hive常用参数 0.常用参数 --@Name: --@Description: --@Type:全量加载 --@Author:--- --@CreateDate: --@Target: --@S ...
- 写好Hive 程序的若干优化技巧和实际案例
使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑.但是一个”好”的Hive程序需要对Hive运行机制有深入的了解,像理解mapreduce作业一样理解Hive QL才能写出正确.高效 ...
- hive参数配置详细
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.i ...
- hive查询注意及优化tips
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具.使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别, 所以需要去掉原有关系型数 ...
- [Hive] - Hive参数含义详解
hive中参数分为三类,第一种system环境变量信息,是系统环境变量信息:第二种是env环境变量信息,是当前用户环境变量信息:第三种是hive参数变量信息,是由hive-site.xml文件定义的以 ...
- linux内核参数注释与优化
目录 1.linux内核参数注释 2.两种修改内核参数方法 3.内核优化参数生产配置 参数解释由网络上收集整理,常用优化参数对比了网上多个实际应用进行表格化整理,使查看更直观. 学习linux也有不少 ...
- MongoDB在Linux下常用优化设置
MongoDB在Linux下常用优化设置 以下是一些MongoDB推荐的常用优化设置.在生产环境下选取合适的参数值,例如预读值和默认文件描述符数目等,会对系统性能有很大的影响. 1.关闭数据库文件的 ...
随机推荐
- elasticsearch 集群配置
2015-10-10 09:56 by 轩脉刃, 999 阅读, 1 评论, 收藏, 编辑 elasticsearch 集群 搭建elasticsearch的集群 现在假设我们有3台es机器,想要把他 ...
- MySql服务基础
MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,目前属于 Oracle 旗下产品.MySQL 最流行的关系型数据库管理系统,在 WEB 应用方面MySQL是最好的 ...
- Angular学习(3)- 双向梆定
示例代码: <!DOCTYPE html> <html ng-app="MyApp"> <head> <title>Study 3& ...
- 用jquery在必填表单字段前加红星总结
一.总结: 今天公司项目中要求给表单中的必填字段添加标记,因为表单字段比较多,后期又有可能某些字段会有变化,所以写了一段js代码来给表单添加标记. html代码: js代码: 关键步骤: 1.红星的设 ...
- nginx按天切割日志
原文链接:http://www.cnblogs.com/benio/archive/2010/10/13/1849935.html 本文只节选部分内容 Nginx自己没有日志分割的功能,一旦时间过长 ...
- iMac一体机安装苹果和Win7双系统
前几天,有个客户说有一苹果的一体机,想装苹果和Win7双系统.约好了时间,带上工具就过去了.去的路上,用手机上网查了一下苹果电脑装双系统的过程.虽然以前也有给苹果的电脑安装过双系统,但次数不多而且时间 ...
- Linux命令之at
1.命令格式:at[参数][时间]2.命令功能:在一个指定的时间执行一个指定任务,只能执行一次,且需要开启atd进程(ps -ef | grep atd查看, 开启用/etc/init.d/atd s ...
- 嵌入式应用中CGI编程中POST、GET及环境变量详解
原载地址:http://3633188.blog.51cto.com/3623188/828095 1.POST和GET 一个CGI程序在于服务器之间的信息传输和数据传输一般通过两种方法,即 ...
- flash bulider 无法启动
更新airsdk后无法启动,google下http://www.25kx.com/art/1826181有n种方法,怀疑是.metadata目录原因,可能是旧版的airsdk和新版的airsdk在.m ...
- 黄聪:wordpress后台加载ajax.googleapis.com导致打开速度很慢的解决方案
打开wordpress后台,发现很卡,通过开发者工具看到是因为加载http://ajax.googleapis.com/ajax/libs/jqueryui/1.10.4/themes/smoothn ...