Hive 企业调优

9.企业级调优

9.1 Fetch 抓取

Fetch 抓取：Hive 中对某些情况的查询可以不必使用 MapReduce 计算；
- hive.fetch.task.conversion:more

9.2 本地模式

大多数的 Hadoop Job 是需要 Hadoop 提供完整的可扩展性来处理大数据集的。不过，有时 Hive 的输入数据量是非常小的。在这种情况下，为查询触发执行任务消耗的时间可能会比实际job的执行时间要多的多。对于大多数这种情况，Hive 可以通过本地模式在单台机器上处理所有的任务。对于小数据集，执行时间可以明显被缩短。
- hive.exec.mode.local.auto:true

9.3 表的优化

9.3.1 小表Join大表

实际测试发现：新版的 hive 已经对小表JOIN大表和大表JOIN小表进行了优化，小表放在左边和右边已经没有明显区别；

9.3.2 大表Join大表

第一种方式：查询之前，过滤Null
- select n.* from (select * from nullidtable where id is not null) n left join bigtable o on n.id = o.id;
第二种方式：给Null的赋值
- 需要避免数据倾斜，所以使用rand()；
- select n.* from nullidtable n full join bigtable o on case when n.id is null then concat('hive', rand()) else n.id end = o.id;

9.3.3 MapJoin

如果不指定 MapJoin 或者不符合 MapJoin 的条件，那么 Hive 解析器会将 Join 操作转换成 Common Join，即：在Reduce阶段完成join，容易发生数据倾斜。可以用 MapJoin 把小表全部加载到内存，在 map 端进行 join，避免 reducer 处理。
开启MapJoin参数设置：
- 开启自动选择 MapJoin:set hive.auto.convert.join=true;,默认为true;
- 设置大表小表的阈值(默认25M 以下就是小表): set hive.mapjoin.smalltable.filesize=25000000;
MapJoin 工作机制:

9.3.4 Group By

默认情况下,Map 阶段同一 Key 数据分发给一个 reduce,当一个 key 数据过大时,就可能发生数据倾斜;
并不是所有的聚合操作都需要在 Reduce 端完成,很多聚合操作都可以现在 Map 端进行部分聚合,最后在 Reduce 端得出最终结果。
开启 Map 端聚合参数设置:
- 是否在 Map 端进行聚合,默认为true:hive.map.aggr=true;
- 在 Map 端进行聚合操作的条目数目:hive.groupby.mapaggr.checkinterval=100000;
- 有数据倾斜的时候,进行负载均衡:hive.groupby.skewindata=true;

9.3.5 Count(Distinct)去重统计

数据量大的情况下,由于 COUNT DISTINCT 操作需要用一个Reduce Task 来完成,这一个 Reduce 需要处理的数据量太大,就会导致整个 Job 很难完成,一般 COUNT DISTINCT 使用时,先 GROUP BY 再 COUNT 的方式替换;

9.3.6 动态分区调整

关系型数据库中,对分区表Insert数据的时候,数据库自动会根据分区字段的值,将数据插入到相应的分区中,Hive 中也提供了类似的机制,即动态分区(Dynamic Partition);
开启动态分区参数设置:
- 开启动态分区功能,默认为true:hive.exec.dynamic.partition=true;
- 设置为非严格模式(默认为strict,即必须指定至少一个分区为静态分区,nonstrict模式表示允许所有的分区字段都可以使用动态分区): hive.exec.dynamic.partition.mode=nonstrict;
- 在所有执行 MR 的节点上,最大一共可以创建多少个动态分区:hive.exec.max.dynamic.partitions=1000;
- 在每个执行 MR 的节点上,最大可以创建多少个动态分区:hive.exec.max.dynamic.partitions.pernode=100;
- 整个 MR Job中,最大可以创建多少个HDFS文件:hive.exec.max.created.files=100000;
- 当有空分区生成时,是否抛出异常:hive.error.on.empty.partition=false;

Hive 企业调优的更多相关文章

数据迁移过程中hive sql调优
本文记录的是,在数据处理过程中,遇到了一个sql执行很慢,对一些大型的hive表还会出现OOM,一步一步通过参数的设置和sql优化,将其调优的过程. 先上sql ) t where t.num =1) ...
Hive（十）Hive性能调优总结
一.Fetch抓取 1.理论分析 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算.例如:SELECT * FROM employees;在这种情况下,Hive可以简单 ...
Hive参数调优
调优 Hive提供三种可以改变环境变量的方法,分别是: (1)修改${HIVE_HOME}/conf/hive-site.xml配置文件: 所有的默认配置都在${HIVE_HOME}/conf/hiv ...
hive tez调优（3）
根据.方案最右侧一栏是一个8G VM的分配方案,方案预留1-2G的内存给操作系统,分配4G给Yarn/MapReduce,当然也包括了HIVE,剩余的2-3G是在需要使用HBase时预留给HBase的 ...
hive的调优
调优 1 Fetch抓取(Hive可以避免进行MapReduce) Hive中对某些情况的查询可以不必使用MapReduce计算.例如:SELECT * FROM employees;在这种情况下,H ...
06hive企业调优
一.Fetch抓取 Fetch抓取是指,Hive 中对某些情况的查询可以不必使用MapReduce计算. 在 hive-default.xml.template 文件中 hive.fetch.task ...
关于Hive的调优（本身，sql，mapreduce）
1.关于hive的优化 ->大表拆分小表 ->过滤字段 ->按字段分类存放 ->外部表与分区表 ->外部表:删除时只删除元数据信息,不删除数据文件多人使用多个外部表操作 ...
060 关于Hive的调优（本身，sql，mapreduce）
1.关于hive的优化 ->大表拆分小表 ->过滤字段 ->按字段分类存放 ->外部表与分区表 ->外部表:删除时只删除元数据信息,不删除数据文件多人使用多个外部表操作 ...
Hive 性能调优
避免执行MR select * or select field1,field2 limit 10 where语句中只有分区字段或该表的本地字段使用本地set hive.exec.mode.local ...

随机推荐

Oraclecloud创建时没有上传公钥的解决办法
https://blogs.oracle.com/cloud-infrastructure/recovering-opc-user-ssh-key-on-oracle-cloud-infrastruc ...
LeetCode之打家劫舍
1. 问题在一条直线上,有n个房屋,每个房屋中有数量不等的财宝,有一个盗贼希望从房屋中盗取财宝,由于房屋中有报警器,如果同时从相邻的两个房屋中盗取财宝就会触发报警器.问在不触发报警器的前提下,最多 ...
安装 sqoop
简介 Sqoop是一个用来将Hadoop(Hive.HBase)和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL ,Oracle ,Postgres等)中的数据导入到Ha ...
@Autowired静态变量
@Component public class UserUtil{ private static Config config; @Autowired public void setConfig(Con ...
2018-2019-2 《网络对抗技术》Exp7 网络欺诈防范 20165326
网络欺诈防范实践内容本实践的目标理解常用网络欺诈背后的原理,以提高防范意识,并提出具体防范方法.具体实践有简单应用SET工具建立冒名网站 ettercap DNS spoof 结合应用两种技术, ...
python中requests里.text和.content方法的区别
requests对象的get和post方法都会返回一个Response对象,这个对象里面存的是服务器返回的所有信息,包括响应头,响应状态码等.其中返回的网页部分会存在.content和.text两个对 ...
《sicp》八皇后谜题
<sicp>八皇后谜题书中练习2.42.八皇后谜题问的是如何将八个皇后摆在国际象棋棋盘上,使得任意一个皇后都不能攻击另一个皇后(也就是说任意两个皇后都不能在同一行,同一列和同一对角线上) ...
在java的Map集合中，怎样更改value的值
版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/chenyao1994/article/de ...
ubuntu进程监视器htop 清除黄色内存（缓存）
大意是:对于CPU显示条: 蓝色为:低优先级的线程绿色为:正常优先级线程红色为:内核线程对于内存显示条: 蓝色为:缓冲区(buffers) 绿色为:已使用的内存 (橘)黄色为:高速缓存(cach ...
Js 实现返回上一页
Js 实现返回上一页 <a href="javascript:history.go(-1)">返回上一页</a> <a href="java ...

Hive 企业调优

9.企业级调优

9.1 Fetch 抓取

9.2 本地模式

9.3 表的优化

9.3.1 小表Join大表

9.3.2 大表Join大表

9.3.3 MapJoin

9.3.4 Group By

9.3.5 Count(Distinct)去重统计

9.3.6 动态分区调整

Hive 企业调优的更多相关文章

随机推荐

热门专题