一整体架构优化

现在hive的整体框架如下，计算引擎不仅仅支持Map/Reduce，并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存储系统。

整体架构优化点：

1 根据不同业务需求进行日期分区，并执行类型动态分区。

相关参数设置：

0.14中默认hive.exec.dynamic.partition=ture

2 为了减少磁盘存储空间以及I/O次数，对数据进行压缩

相关参数设置：

job输出文件按照BLOCK以Gzip方式进行压缩。

mapreduce.output.fileoutputformat.compress=true

mapreduce.output.fileoutputformat.compress.type=BLOCK

mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.GzipCodec

map输出结果也以Gzip进行压缩。

mapreduce.map.output.compress=true

mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.GzipCodec

对hive输出结果和中间结果进行压缩。

hive.exec.compress.output=true

hive.exec.compress.intermediate=true

3 hive中间表以SequenceFile保存，可以节约序列化和反序列化的时间

相关参数设置：

hive.query.result.fileformat=SequenceFile

4 yarn优化，在此不再展开，后面专门介绍。

二 MR阶段优化

hive操作符有：

执行流程为：

reduce切割算法：

三 JOB优化

1 本地执行

默认关闭了本地执行模式，小数据可以使用本地执行模式，加快执行速度。

相关参数设置：

hive.exec.mode.local.auto=true

默认本地执行的条件是，hive.exec.mode.local.auto.inputbytes.max=128MB， hive.exec.mode.local.auto.tasks.max=4，reduce task最多1个。

性能测试：

数据量（万）	操作	正常执行时间（秒)	本地执行时间（秒）
170	group by	36	16
80	count	34	6

2 mapjoin

默认mapjoin是打开的，

hive.auto.convert.join.noconditionaltask.size=10MB

装载到内存的表必须是通过scan的表（不包括group by等操作），如果join的两个表都满足上面的条件，/*mapjoin*/指定表格不起作用，只会装载小表到内存，否则就会选那个满足条件的scan表。

四 SQL优化

整体的优化策略如下：

去除查询中不需要的column
Where条件判断等在TableScan阶段就进行过滤
利用Partition信息，只读取符合条件的Partition
Map端join，以大表作驱动，小表载入所有mapper内存中
调整Join顺序，确保以大表作为驱动表
对于数据分布不均衡的表Group by时，为避免数据集中到少数的reducer上，分成两个map-reduce阶段。第一个阶段先用Distinct列进行shuffle，然后在reduce端部分聚合，减小数据规模，第二个map-reduce阶段再按group-by列聚合。
在map端用hash进行部分聚合，减小reduce端数据处理规模。

五平台优化

1hive on tez

2 spark SQL大趋势

总结

上面主要介绍一些优化思想，有些优化点没有详细展开，后面分别介绍yarn的优化细节、SQL详细的优化实例以及我们在Tez、spark等框架优化结果。最后用一句话共勉：边coding，边优化，优化无止境。

Hive整体优化策略的更多相关文章

Hive(六)hive执行过程实例分析与hive优化策略
一.Hive 执行过程实例分析 1.join 对于 join 操作:SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.useri ...
hive工作中的一些优化策略
1.hive抓取策略 hive.fetch.task.conversion = more/none more不走mr,none走mr 2.explain 显示执行计划 3.设置 ...
hive作业的优化策略
Mapreduce自身的特点: 1.IO和网络负载大:优化策略:减少IO和网络负载. 2.内存负载不大.优化策略:增大内存使用率: 3.CPU负载不大.优化策略:增大CPU使用率: (hive的优化应 ...
Hive优化策略
hive优化目标在有限的资源下,运行效率高. 常见问题数据倾斜.Map数设置.Reduce数设置等 hive运行查看运行计划 explain [extended] hql 例子 explain ...
Hive性能优化
1.概述继续<那些年使用Hive踩过的坑>一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题.下面开始本篇文章的优化介绍. 2.介绍首先 ...
Hive任务优化（1）
一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,Shuffle,Sort等多个阶段,所以针对Hive查询的优化可以大致分为针 ...
常见性能优化策略的总结 good
阅读目录代码数据库缓存异步 NoSQL JVM调优多线程与分布式度量系统(监控.报警.服务依赖管理) 案例一:商家与控制区关系的刷新job 案例二:POI缓存设计与实现案例三:业务运营后 ...
Hive性能优化上的一些总结
https://blog.csdn.net/mrlevo520/article/details/76339075 1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据 ...
Hive性能优化（全面）
1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题. jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 ...

随机推荐

itertools.groupby()分组字典列表
## itertools.groupby()分组字典列表数据 from operator import itemgetter from itertools import groupby student ...
MongoDB如何释放空闲空间？
当我们从MongoDB中删除文档或集合时,MongoDB并不会将已经占用了的磁盘空间释放,它会一直维护已经占用了磁盘空间的数据文件,尽管数据文件中可能存在大大小小的空记录列表(empty record ...
java的值传递机制
一.练习:编写Java程序,将二维数组中的行列互调显示出来. 代码1为自己编写: package com.xxgpra.CH6; public class Hangliehudiao_pra4 { p ...
VSCode 配置 Python
假设 Anaconda 和 VSCode 都安装好了. 安装插件 VSCode 自带的 python 高亮不是很好,这里我们用 One Dark Pro 插件, 以及安装 Python 插件. 设定 ...
成都Uber优步司机奖励政策（2月1日）
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...
游戏人工智能读书笔记（四） AI算法简介——Ad-Hoc 行为编程
本文内容包含以下章节: Chapter 2 AI Methods Chapter 2.1 General Notes 本书英文版: Artificial Intelligence and Games ...
InnoDB锁冲突案例演示
Preface As we know,InnoDB is index organized table.InnoDB engine supports row-level lock bas ...
uvaoj 213 - Message Decoding（二进制，输入技巧）
https://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_problem& ...
RabbitMQ基础教程之使用进阶篇
RabbitMQ基础教程之使用进阶篇相关博文,推荐查看: RabbitMq基础教程之安装与测试 RabbitMq基础教程之基本概念 RabbitMQ基础教程之基本使用篇 I. 背景前一篇基本使用篇 ...
前端开发工程师 - 03.DOM编程艺术 - 第1章.基础篇(上)
第1章.基础篇(上) Abstract:文档树.节点操作.属性操作.样式操作.事件 DOM (Document Object Model) - 文档对象模型以对象的方式来表示对应的html,它有一系 ...

Hive整体优化策略

一 整体架构优化

二 MR阶段优化

三 JOB优化

1 本地执行

2 mapjoin

四 SQL优化

五 平台优化

总结

Hive整体优化策略的更多相关文章

随机推荐

热门专题

一整体架构优化

五平台优化