hive工作中的一些优化策略

1、hive抓取策略

hive.fetch.task.conversion = more/none

more不走mr，none走mr

2、explain 显示执行计划

3、设置本地运行模式

set hive.exec.mode.local.auto = true

hive.exec.mode.local.inputbytes.max 默认128M，表示加载文件的最大值，若大于该配置仍会以集群方式运行

4、并行计算

Set hive.exec.parallel = true/falses

Set hive.exec.parallel.thread.number 默认8个

5、严格模式

set hive.mapred.mode = strict/nonstrict

限制查询：

对于分区表，必须添加where对于分区字段的过滤条件
order by语句必须包含limit输出限制
限制执行笛卡尔积的查询

6、hive排序

order by：对于查询结果做全排序，只允许一个reduce处理（当数据量较大时，慎用。严格模式下，必须结合limit来使用）
sort by：对于单个reduce的数据进行排序
distribute by：分区排序，经常和sort by结合使用
cluster by：相当于sort by+distribute by
- 　　cluster by不能通过asc、desc的方式指定排序顺序，可通过distribute by column sort by column asc|desc的方式

7、hive join

join计算时，将小表（驱动表）放在join的左边
Map join：在map端完成join
- 　　SQL方式：在sql语句中添加map join的标记(mapjoin hint)
  - 　　语法：select /* MAPJOIN(b) */ a.key, a.value from a join b on a.key = b.key
- 　　自动的mapjion
  - 通过以后配置启用自动的mapjion
    - - 　　set hive.auto.convert.join = true （为true时，hive自动对左边的表统计量，如果时小表就加入内存，即对小表启动mapjion）
      - 　　hive.mapjion.smalltable.filesize 默认25M
      - 　　Hive.ignore.mapjion.hint 是否忽略maojoin hint的标
尽可能使用相同的连接键（转化为一个mr）
大表join大表（不一定有用）
- 空key过滤：有时join超时是因为某些key对应的数据太多，而相同key对应的数据都会发送到相同的reducer上，从而导致内存不够。此时我们应该仔细分析这些异常的key，很多情况下，这些key对应的数据是异常数据，我们需要在SQL语句中进行过滤。
- 空key转换：有时虽然某个key为空对应的数据很多，但是相应的数据不是异常数据，必须要包含在join的结果中，此时我们可以表a中key为空的字段赋一个随机的值，使得数据随机均匀地分不到不同的reducer上

8、map-side聚合

通过设置参数开启map端的聚合：set hive.map.aggr=true
hive.groupby.mapaggr.checkinterval —map端gourp by执行聚合时处理的多少行数据（默认100000）
hive.map.aggr.hash.min.reduction —进行聚合的最小比例（预先对100000条数据做聚合，若聚合之后的数据量/100000的值大于配置的0.5，则不会聚合）
hive.map.aggr.hash.percentmemory —map端聚合使用的内存最大值
hive.map.aggr.hash.force.flush.memory.threshold —map端做聚合操作时hash表的最大可用内容，大于该值出发flush
hive.groupby.skewindata — 是否对groupby产生的数据倾斜做优化。默认false，当选项设定为 true，生成的查询计划会有两个 MR Job。第一个 MR Job 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中（这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作。

9、合并小文件文件数据小，容易在文件存储端造成压力，给hdfs造成压力，影响效率

设置合并属性
- 是否合并map输出文件：hive.merge.mapfiles=true
- 是否合并reduce输出文件：hive.merge.mapredfiles=true
- 合并文件的大小：hive.merge.size.per.task=256*1000*1000

10、去重统计：数据量小的时候无所谓，数据量大的情况下，由于COUNT DISTINCT操作需要用一个Reduce Task来完成，这一个Reduce需要处理的数据量太大，就会导致整个Job很难完成，一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替换

11、控制hive中map以及reduce的数量

Map数量相关的参数
- mapred.max.split.size 每个split的最大值，即每个map处理文件的最大值
- mapred.min.split.size.per.node 一个节点上split的最小值
- mapred.min.split.size.per.rack 一个机架上split的最小值
reduce数量相关的参数
- mapred.reduce.tasks 强制指定reduce任务的数量
- hive.exec.reducers.bytes.per.reduce 每个reduce任务处理的数据量
- hive.exec.reduce.max 每个任务最大的reduce书

12、hive-JVM重用

适用场景
- 小文件个数过多
- task个数过多
通过set mapred.job.reuse.jvm.num.tasks=n来设置
- 　　缺陷：设置开启之后，task插槽会一直占用资源，无论是否有task运行，直到所有的task即整个job全部执行完成时，才会释放所有的task插槽的资源

hive工作中的一些优化策略的更多相关文章

在 Android开发中，性能优化策略十分重要
在 Android开发中,性能优化策略十分重要本文主要讲解性能优化中的布局优化,希望你们会喜欢.目录示意图 1. 影响的性能布局性能的好坏主要影响 :Android应用中的页面显示速度 2. 如 ...
HBase工作中的一些优化方法
1.表的设计 Pre-creating Regions(预分区) 默认情况下,在创建Hbase表的时候会自动创建一个region分区,当导入数据的时候,所有的Hbase客户端都向这一个region写数 ...
大型系统中使用JMS优化技巧–Sun OpenMQ
我们先来看看在Sun OpenMQ系统中一个持久.可靠的方式传送消息的步骤是怎么样的,如图所示: 查看大图请点击这里在传送过程中,系统处理JMS消息分为以下两类: ■ 有效负荷消息,由生成方发 ...
【转载】大型系统中使用JMS优化技巧
[本文转自:http://www.javabloger.com/article/sun-openmq-jms-large-scale-systems.html] 我们先来看看在Sun OpenMQ系统 ...
【SQL系列】深入浅出数据仓库中SQL性能优化之Hive篇
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[SQL系列]深入浅出数据仓库中SQL性能优化之 ...
Hive(六)hive执行过程实例分析与hive优化策略
一.Hive 执行过程实例分析 1.join 对于 join 操作:SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.useri ...
Hive整体优化策略
一整体架构优化现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez.Spark等.根据不同的计算引擎又可以使用不同的资源调度和存储系统. 整体架构优化点: 1 根据 ...
工作中常见的hive语句总结
hive的启动: 1.启动hadoop2.开启 metastore 在开启 hiveserver2服务nohup hive --service metastore >> log.out 2 ...
PHP中的数据库一、MySQL优化策略综述
前些天看到一篇文章说到PHP的瓶颈很多情况下不在PHP自身,而在于数据库.我们都知道,PHP开发中,数据的增删改查是核心.为了提升PHP的运行效率,程序员不光需要写出逻辑清晰,效率很高的代码,还要能对 ...

随机推荐

Kubeasz部署K8s基础测试环境简介
下面介绍使用Kubeasz部署K8s集群环境. https://github.com/easzlab/kubeasz在需要使用kubeeasz项目安装的k8s时,需要将所有需要它来部署的节点上,都安装 ...
java 中类初始化，构造方法，静态成员变量，静态块的加载顺序
1.编译和运行概念要搞清:编译即javac的过程,负责将.java文件compile成.class文件,主要是类型.格式检查与编译成字节码文件,而加载是指java *的过程,将.class文件加载到内 ...
安装和启动ElasticSearch服务遇到的几个问题
首先安装和启动服务的教程是参考文章:ES入门之一安装ElasticSearch 然后在最后的启动es服务时遇到了几个小问题,因此在这里记录一下. 因为我对linux并不是很熟悉,因此文中如果有说错的 ...
MySql的执行计划
一.什么是数据库执行计划: MySQL执行计划是sql语句经过查询优化器后,查询优化器会根据用户的sql语句所包含的字段和内容数量等统计信息,选择出一个执行效率最优(MySQL系统认为最优)的执行计划 ...
R 指定安装镜像的方法
方法一 options(repos=structure(c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))) install ...
【小盘子看源码-MyBatis-1】MyBatis配置文件的加载流程
众所周知,Mybatis有一个全局的配置,在程序启动时会加载XML配置文件,将配置信息映射到org.apache.ibatis.session.Configuration类中,例如如下配置文件. &l ...
洛谷 P1969 积木大赛（NOIP2013）
题目描述春春幼儿园举办了一年一度的“积木大赛”.今年比赛的内容是搭建一座宽度为n的大厦,大厦可以看成由n块宽度为1的积木组成,第i块积木的最终高度需要是hi. 在搭建开始之前,没有任何积木(可以看成n ...
R3300L Android相关的记录
在寻找高版本Android固件的过程中遇到一个Android6.0的固件, 刷上去之后发现没有Root. 因为原发布者设置了收费的QQ群, 固件开机图上就是QQ群号, 满以为交了钱之后应该能有Root ...
如何防止Hangfire重复作业在连续执行30分钟后重新启动(How to prevent a Hangfire recurring job from restarting after 30 minutes of continuous execution)
var options = new SqlServerStorageOptions { InvisibilityTimeout = TimeSpan .FromMinutes(30)//默认值}; G ...
基于redis5的session共享：【redis 5.x集群应用研究】
基于springsession构建一个session共享的模块. 这里,基于redis的集群(Redis-5.0.3版本),为了解决整个物联网平台的各个子系统之间共享session需求,且方便各个子系 ...

hive工作中的一些优化策略

hive工作中的一些优化策略的更多相关文章

随机推荐

热门专题