hive之调优

1、简单的查询，就是只是select，不带count,sum,group by这样的，都不走map/reduce，直接读取hdfs文件进行filter过滤，即尽量让fetch task(当开启一个Fetch Task功能，就执行一个简单的查询语句不会生成MapRreduce作业，而是直接使用FetchTask，从hdfs文件系统中进行查询输出数据，从而提高效率)任务不走MapReduce。

2、遵循hive的严格模式，禁止以下3种情况的查询模式

（1）当表为分区表时，where子句后无分区字段和限制字段禁止执行

（2）使用order by子句时，必须使用limit语句，因为order by子句只会产生一个reducer任务

（3）限制笛卡尔乘积的查询，尽量将限制条件放在from语句后面的on后面。因为在关系型数据库执行 from join查询的时候不使用on语句而是使用where语句，关系型数据库中优化器可以高效的将where语句转化成那个on语句，但是hive不会执行此优化。故在hive中join操作时尽量将条件放在on后面。

3、优化HiveQL语句，先过滤等。

4、在mapreduce过程中尽量使用压缩，即在map，shuffle，reducer使用snappy压缩。

5、设计好分区表和外部表，创建外部表尽量指定数据所在的文件夹，而不用load去加载。

6、设置map和reducer的任务个数，默认情况是一个块对应一个map任务，一般来说map任务个数不会去调整，而调整reducer的任务个数。reduce处理的数据量大小进行适当调整体现“分而治之”的思想。

7、JVM重用：一个job可能有多个map和reducer任务，每个任务会开启一个jvm虚拟机，默认情况下一个task对应一个jvm，任务完成就销毁jvm，我们可以设置jvm重用参数，这样一个jvm可以连续运行对个任务。

　　　　　　缺点：开启JVM重用将会一直占用使用到的task插槽，以便进行重用，若某个job中的reduce task执行时间要比其他reduce task消耗时间多的话，那么保留的插槽却空闲，无法被其他的job使用，直到所有task都结束才会释放．

8、推测执行：木桶效应，若一个job有10个mapreduce任务，其中9个任务已经完成，那么application Master会在另外一个空闲的容器中运行最后一个相同的任务，哪个运行的快就使用哪个结果，运行慢的就被终止。

9、对表进行join时，要将大表放在后面，小表放在前面或者使用标记来告诉系统谁是大表or谁是小表

　　SELECT /*streamtable(b)*/ a.key, a.value
　　FROM a JOIN b ON a.key = b.key

10、在map端完成join（shuffle比较浪费时间，如果没有了reduce也就没有了shuffle）

（1）实现方式

　　1、在SQL语句中添加Map join标记

　　　select /*+MapJoin(smallTable)*/smallTable.key, bigTable.value

　　　from smallTable JOIN bigTable ON smallTable.key = bigTable.key

　　会优先将一张小表（默认小于25M，可以需要适当调节）的数据加载进内存中，然后大表的数据通过map端进行读取，然后和内存进行匹配，内存的计算速度很高，这样就在内存端进行了操作，不需要shuffle，不需要reduce

　　2、自动的mapjoin

　　　set hive.auto.convert.join = true;(该参数为true时，Hive自动对左边的表统计量，如果是小表就加入内存，即对小表使用Map join)，其中hive.mapjoin.smalltable.filesize是大小表判断的阈值。

hive之调优的更多相关文章

数据迁移过程中hive sql调优
本文记录的是,在数据处理过程中,遇到了一个sql执行很慢,对一些大型的hive表还会出现OOM,一步一步通过参数的设置和sql优化,将其调优的过程. 先上sql ) t where t.num =1) ...
Hive（十）Hive性能调优总结
一.Fetch抓取 1.理论分析 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算.例如:SELECT * FROM employees;在这种情况下,Hive可以简单 ...
Hive参数调优
调优 Hive提供三种可以改变环境变量的方法,分别是: (1)修改${HIVE_HOME}/conf/hive-site.xml配置文件: 所有的默认配置都在${HIVE_HOME}/conf/hiv ...
Hive 企业调优
9.企业级调优 9.1 Fetch 抓取 Fetch 抓取:Hive 中对某些情况的查询可以不必使用 MapReduce 计算: hive.fetch.task.conversion:more 9.2 ...
hive tez调优（3）
根据.方案最右侧一栏是一个8G VM的分配方案,方案预留1-2G的内存给操作系统,分配4G给Yarn/MapReduce,当然也包括了HIVE,剩余的2-3G是在需要使用HBase时预留给HBase的 ...
hive的调优
调优 1 Fetch抓取(Hive可以避免进行MapReduce) Hive中对某些情况的查询可以不必使用MapReduce计算.例如:SELECT * FROM employees;在这种情况下,H ...
关于Hive的调优（本身，sql，mapreduce）
1.关于hive的优化 ->大表拆分小表 ->过滤字段 ->按字段分类存放 ->外部表与分区表 ->外部表:删除时只删除元数据信息,不删除数据文件多人使用多个外部表操作 ...
060 关于Hive的调优（本身，sql，mapreduce）
1.关于hive的优化 ->大表拆分小表 ->过滤字段 ->按字段分类存放 ->外部表与分区表 ->外部表:删除时只删除元数据信息,不删除数据文件多人使用多个外部表操作 ...
Hive 性能调优
避免执行MR select * or select field1,field2 limit 10 where语句中只有分区字段或该表的本地字段使用本地set hive.exec.mode.local ...
HDP Hive性能调优
(官方文档翻译整理及总结) 一.优化数据仓库 ① Hive LLAP 是一项接近实时结果查询的技术,可用于BI工具以及网络看板的应用,能够将数据仓库的查询时间缩短到15秒之内,这样的查询称之为Int ...

随机推荐

开发zeroc ice应用入门（java开发ice应用，python开发ice应用，java与python结合开发ice服务）
ice作为一种rpc框架,为主流平台设计,包括Windows和Linux,支持广泛的语言,包括C++,Java,C#(和其他.Net的语言,例如Visual Basic),Python,Ruby,PH ...
Android中对Apk加固(加壳)续篇之---对Native层(so文件)进行加固
有人说Android程序用Java代码写的,再怎么弄都是不安全的,很容易破解的,现在晚上关于应用加固的技术也很多了,当然这些也可以用于商业发展的,梆梆加密和爱加密就是很好的例子,当然这两家加固的Apk ...
[CSP-S模拟测试]:Travel（贪心+构造）
题目描述给定一个长度为$n$的格子序列$x_1,x_2,...,x_n$.每一次$Lyra$可以选择向左跳到任意一个还没到过的位置,也可以向右跳到任意一个还没到过的位置.如果现在$Lyra$在格子$ ...
使用sqlalchemy创建单条数据－分层管理代码
这里主要是如何把整个流程的代码分层管理,方便维护不拆分层次,整个流程顺下来的代码看这里:sqlAlchemy基本使用项目结构: model.py用来描述表结构: from sqlalchemy i ...
canvas绘制加载特效
css样式: body{ text-align: center; } canvas{ background: #ddd; } canvas标签: <canvas id="canvas& ...
Leapin' Lizards [HDU - 2732]【网络流最大流】
题目链接网络流直接最大流就是了,只是要拆点小心一个点的流超出了原本的正常范围才是. #include <iostream> #include <cstdio> #includ ...
网络流强化-HDU2732
第一次遇到加了“多余”的边会导致WA的——在我看来是很多余,见代码191行之后会思考为什么,想出来再更. 问题弄明白了,如果你在连接边连了一条到没有柱子的点的边,这个没有柱子的点是不可能连到终点的, ...
Locally weighted regression algorithm
在此引出另一种模型:Locally weighted regression algorithm(LWLR/LWR),通过名字我们可以推断,这是一种更加关注局部变化的模型.的确如此,在普通的linear ...
package和import语句_2
package import 总结 1.如果想将一个类放入包中,在这个类源文件第一句话写package 2.必须保证该类的class文件位于正确目录下 1)该类的源码可能会产生影响 ...
GitBook "How to be a programmer"
网址:https://www.gitbook.com/book/braydie/how-to-be-a-programmer/ 最近看了这本 GitBook,主要讲程序员应该掌握的技能和注意的问题,分 ...

hive之调优

hive之调优的更多相关文章

随机推荐

热门专题