hive优化之参数调优

1、hive参数优化之默认启用本地模式

启动hive本地模式参数，一般建议将其设置为true，即时刻启用：

hive (chavin)> set hive.exec.mode.local.auto;

hive.exec.mode.local.auto=false

2、设置hive执行模式

hive (default)> set hive.mapred.mode;

hive.mapred.mode=nonstrict

参数hive.mapred.mode控制着hive的执行模式，如果设置为strict模式，则hive作业禁止3种类型查询：

1）分区表没有启用分区过滤字段。

2）order by没有指定limit限制

3）笛卡尔积

3、限制调整

查询中使用limit限制返回数据行数，但是实际mapreduce任务很多情况已经跑完了整个任务。可以通过配置参数对这种情况进行控制：

设置hive.limit.optimize.enable=true;将针对查询对元数据进行抽样。

同时可能还需要设置以下两个参数：

set hive.limit.row.max.size=100000;

set hive.limit.optimize.limit.file=10;

这样设置不好的一点是有些数据可能永远也访问不到。

4、jvm重用相关设置

jvm重用是hadoop调优参数的内容，其对hive的性能影响是非常大的，特别是对于针对很多小文件的场景或task特别多的场景，这类场景任务执行的时间都很短。hadoop默认使用派生的jvm执行mapreduce任务，对于jvm的启动时很大的开销，特别针对于task任务比较多的场景。jvm重用可以使jvm实例在同一个job中运行n次，n的值在hadoop的mapred-site.xml文件进行配置：

<name> mapred.job.reuse.jvm.num.tasks </name>

</property>

也可以在hive cli中通过set设置：

hive (default)> set mapred.job.reuse.jvm.num.tasks;

mapred.job.reuse.jvm.num.tasks=1

hive (default)> set mapred.job.reuse.jvm.num.tasks=10;

hive (default)> set mapred.job.reuse.jvm.num.tasks;

mapred.job.reuse.jvm.num.tasks=10

这个功能的一个缺点就是会一直占用task插槽不释放，以备重用，直到任务完成才释放。如果在任务过程中出现数据倾斜，则可能task插槽需要等到reduce task任务完成才能释放。

5、推测执行相关配置

hadoop的推测执行功能由mapred-site.xml文件中的2个参数决定：

<name> mapred.map.tasks.speculative.execution </name>

</property>

<name> mapred.reduce.tasks.speculative.execution</name>

</property>

hive本身也有控制推测执行的参数，可以在hive-site.xml文件中配置：

<name>hive.mapred.reduce.tasks.speculative.execution </name>

</property>

hive中推测执行参数默认值如下：

hive (default)> set mapred.map.tasks.speculative.execution;

mapred.map.tasks.speculative.execution=true

hive (default)> set mapred.reduce.tasks.speculative.execution;

mapred.reduce.tasks.speculative.execution=true

hive (default)> set hive.mapred.reduce.tasks.speculative.execution;

hive.mapred.reduce.tasks.speculative.execution=true

6、单个mapreduce中运行多个group by

参数hive.multigroupby.singlemr控制师徒将查询中的多个group by组装到单个mapreduce任务中。如果启用这个优化，那么需要一组常用的group by键：

7、聚合优化：

启用参数：hive.map.aggr=true

8、参数hive.fetch.task.conversion的调优：

默认值：hive.fetch.task.conversion=minimal

建议值：set hive.fetch.task.conversion=more;

9、设置队列优先级

Set mapreduce.job.queuename=bigdata；

hive优化之参数调优的更多相关文章

hive sql的参数调优
shuffle优化之减少shuffle数据量 1.谓词下推 hive.optimize.ppd ,默认为true. 所谓谓词下推就是过滤条件如果写在shuffle操作后面,就提前过滤掉,减少参与sh ...
大数据：Hive常用参数调优
1.limit限制调整一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果. 有一个配置属性可以开启,避免这种情况---对数据源进行抽样 hive.limit.optimize.e ...
Spark性能优化--数据倾斜调优与shuffle调优
一.数据倾斜发生的原理原理:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作.此时如果某个key对应的数据量特 ...
1，Spark参数调优
Spark调优目录 Spark调优一.代码规范 1.1 避免创建重复RDD 1.2 尽量复用同一个RDD 1.3 多次使用的RDD要持久化 1.4 使用高性能算子 1.5 好习惯二.参数调优资 ...
Spark Shuffle原理、Shuffle操作问题解决和参数调优
摘要: 1 shuffle原理 1.1 mapreduce的shuffle原理 1.1.1 map task端操作 1.1.2 reduce task端操作 1.2 spark现在的SortShuff ...
Linux内核 TCP/IP、Socket参数调优
Linux内核 TCP/IP.Socket参数调优 2014-06-06 Harrison.... 阅 9611 转 165 转藏到我的图书馆微信分享: Doc1: /proc/sy ...
【转】XGBoost参数调优完全指南（附Python代码）
xgboost入门非常经典的材料,虽然读起来比较吃力,但是会有很大的帮助: 英文原文链接:https://www.analyticsvidhya.com/blog/2016/03/complete-g ...
XGBoost参数调优完全指南（附Python代码）
XGBoost参数调优完全指南(附Python代码):http://www.2cto.com/kf/201607/528771.html https://www.zhihu.com/question/ ...
php-fpm参数调优
关于php-fpm.conf参数调优,只对重要的参数进程调优.其它可参数前辈的. http://php.net/manual/zh/install.fpm.configuration.php (官方的 ...

随机推荐

rinetd 一个linux下的端口转发工具
inux下使用iptables实现端口转发,配置较为复杂,使用rinetd工具可以实现快速配置和修改端口转发. 例:本机ip:1.1.1.1 需要实现访问本机的8080端口,自动转发到2.2.2.2 ...
Android Studio updating indices 一直刷新和闪烁
Android Studio 更新到了 3.1.3 版本,在导入了工程以后,一直出现了 updating indices 刷新的情况,造成闪烁,在切换到其他视图以后,Android Studio 会一 ...
[svc]证书各个字段的含义
证书生成工具 1,openssl 2,jdk自带的keystone 3,cfssl 证书中各个字段的含义 - 查看证书的内容 openssl x509 -in /etc/pki/CA/cacert.p ...
python 列表排序方法sort、sorted技巧篇
Python list内置sort()方法用来排序,也可以用python内置的全局sorted()方法来对可迭代的序列排序生成新的序列. 1)排序基础简单的升序排序是非常容易的.只需要调用sorte ...
java-信息安全（十五）-单向认证
原文地址 http://snowolf.iteye.com/blog/398198 接下来,我们使用第三方CA签名机构完成证书签名. 这里我们使用thawte提供的测试用21天免费ca证书. ...
将 GitHub 上的代码向 Coding 更新
问题: 从 GitHub 上 clone 代码到本地很慢,10 KB/s 左右,为了解决这个问题,尝试将 GitHub 上的代码通过离线下载的方式,用百度云和115网盘下载,经常失败,弃之~ 国内也有 ...
tcp 三次握手转
转载记得刚毕业找工作面试的时候,经常会被问到:你知道“3次握手,4次挥手”吗?这时候我会“胸有成竹”地“背诵”前期准备好的“答案”,第一次怎么怎么,第二次……答完就没有下文了,面试官貌似也没有深入下 ...
[IR] Suffix Trees and Suffix Arrays
前缀树匹配前缀字符串是不言自明的道理. 1. 字符串的快速检索 2. 最长公共前缀(LCP) 等等树的压缩后缀树 Let s=abab, a suffix tree of s is a comp ...
艺多不压身 -- 常用缓存Cache机制的实现
常用缓存Cache机制的实现缓存,就是将程序或系统经常要调用的对象存在内存中,以便其使用时可以快速调用,不必再去创建新的重复的实例. 这样做可以减少系统开销,提高系统效率. 缓存主要可分为二大类: ...
DLL断点调试
一般来说调试DLL是把DLL工程和exe工程放到一个解决方案里.如果不放到一个解决方案里,那两者的输出目录要一致,属性-连接器-常规-输出目录.保证dll,dll的pdb,exe,exe的pdb在一个 ...

hive优化之参数调优

hive优化之参数调优的更多相关文章

随机推荐

热门专题