hive优化方式总结

1. 多表join优化代码结构：

select .. from JOINTABLES (A,B,C) WITH KEYS (A.key, B.key, C.key) where ....

关联条件相同多表join会优化成一个job

2. LeftSemi-Join是可以高效实现IN/EXISTS子查询的语义

SELECT a.key,a.value FROM a WHERE a.key in (SELECT b.key FROM b);

（1）未实现Left Semi-Join之前，Hive实现上述语义的语句是：

SELECT t1.key, t1.valueFROM a t1

left outer join (SELECT distinctkey from b) t2 on t1.id = t2.id

where t2.id is not null;

（2）可被替换为Left Semi-Join如下：

SELECT a.key, a.valFROM a LEFT SEMI JOIN b on (a.key = b.key)

这一实现减少至少1次MR过程，注意Left Semi-Join的Join条件必须是等值。

3. 预排序减少map join和group by扫描数据HIVE-1194

（1）重要报表预排序，打开hive.enforce.sorting选项即可

（2）如果MapJoin中的表都是有序的，这一特性使得Join操作无需扫描整个表，这将大大加速Join操作。可通过

hive.optimize.bucketmapjoin.sortedmerge=true开启这个功能，获得高的性能提升。

set hive.mapjoin.cache.numrows=10000000;

set hive.mapjoin.size.key=100000;

Insert overwrite table pv_users

Select /*+MAPJOIN(pv)*/ pv.pageid,u.age

from page_view pv

join user u on (pv.userid=u.userid;

（3）Sorted Group byHIVE-931

对已排序的字段做Group by可以不再额外提交一次MR过程。这种情况下可以提高执行效率。

4. 次性pv uv计算框架

（1）多个mr任务批量提交

hive.exec.parallel[=false]

hive.exec.parallel.thread.number[=8]

（2）一次性计算框架,结合multi group by

如果少量数据多个union会优化成一个job；

反之计算量过大可以开启批量mr任务提交减少计算压力；

利用两次group by 解决count distinct 数据倾斜问题

Set hive.exec.parallel=true;

Set hive.exec.parallel.thread.number=2;

From（

    Select

        Yw_type,

        Sum(case when type=’pv’ then ct end) as pv,

        Sum(case when type=’pv’ then 1 end) as uv,

        Sum(case when type=’click’ then ct end) as ipv,

        Sum(case when type=’click’ then 1 end) as ipv_uv

    from (

        select

            yw_type,log_type,uid,count(1) as ct

        from (

            select ‘total’ yw_type,‘pv’ log_type,uid from pv_log

            union all

            select ‘cat’ yw_type,‘click’ log_type,uid from click_log

        ) t group by yw_type,log_type

    ) t group by yw_type

) t

Insert overwrite table tmp_1

Select pv,uv,ipv,ipv_uv

Where yw_type=’total’

Insert overwrite table tmp_2

Select pv,uv,ipv,ipv_uv

Where yw_type=’cat’;

5. 控制hive中的map和reduce数

（1）合并小文件

set mapred.max.split.size=100000000;

set mapred.min.split.size.per.node=100000000;

set mapred.min.split.size.per.rack=100000000;

set hive.input.format=

org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

hive.input.format=……表示合并小文件。大于文件块大小128m的，按照128m来分隔，小于128m,大于100m的，按照100m来分隔，把那些小于100m的（包括小文件和分隔大文件剩下的），进行合并,最终生成了74个块

（2）耗时任务增大map数

setmapred.reduce.tasks=10;

6. 利用随机数减少数据倾斜

大表之间join容易因为空值产生数据倾斜

select

    a.uid

from big_table_a a

left outer join big_table_b b

on b.uid = case when a.uid is null or length(a.uid)=0

        then concat('rd_sid',rand()) else a.uid end;

hive优化方式总结的更多相关文章

hive join的三种优化方式
原网址:https://blog.csdn.net/liyaohhh/article/details/50697519 hive在实际的应用过程中,大部份分情况都会涉及到不同的表格的连接, 例如在进行 ...
hive优化之——控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务.主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文 ...
一起学Hive——总结常用的Hive优化技巧
今天总结本人在使用Hive过程中的一些优化技巧,希望给大家带来帮助.Hive优化最体现程序员的技术能力,面试官在面试时最喜欢问的就是Hive的优化技巧. 技巧1.控制reducer数量下面的内容是我 ...
大数据技术之_08_Hive学习_04_压缩和存储（Hive高级）+ 企业级调优（Hive优化）
第8章压缩和存储(Hive高级)8.1 Hadoop源码编译支持Snappy压缩8.1.1 资源准备8.1.2 jar包安装8.1.3 编译源码8.2 Hadoop压缩配置8.2.1 MR支持的压缩 ...
大数据开发实战：Hive优化实战1-数据倾斜及join无关的优化
Hive SQL的各种优化方法基本都和数据倾斜密切相关. Hive的优化分为join相关的优化和join无关的优化,从项目的实际来说,join相关的优化占了Hive优化的大部分内容,而join相关的 ...
Apache Hive 存储方式、压缩格式
简介: Apache hive 存储方式跟压缩格式! 1.Text File hive> create external table tab_textfile ( host string com ...
hive 优化（转）
Hive优化 Hive优化目标在有限的资源下,执行效率更高常见问题数据倾斜 map数设置 reduce数设置其他 Hive执行 HQL --> Job --> Map/Reduce ...
Hive(六)hive执行过程实例分析与hive优化策略
一.Hive 执行过程实例分析 1.join 对于 join 操作:SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.useri ...
hive学习（八）hive优化
Hive 优化 1.核心思想: 把Hive SQL 当做Mapreduce程序去优化以下SQL不会转为Mapreduce来执行 select仅查询本表字段 where仅对本表字段做条件过滤 Ex ...

随机推荐

jps 命令
NAME jps - Lists the instrumented Java Virtual Machines (JVMs) on the target system. This command is ...
#学习笔记：CentOS7学习之十三（2）：磁盘介绍与管理
1.磁盘分区工具与挂载 1.1 硬盘分区符认识: MBR概述:全称为Master Boot Record,即硬盘的主引导记录. 硬盘的0柱面.0磁头.1扇区称为主引导扇区(也叫主引导记录MBR).它由 ...
2019牛客暑期多校训练营（第四场）- J free
题目链接:https://ac.nowcoder.com/acm/contest/884/J 题意:给定一个无向图,有n个点,m条边(n,m<=1e3),起点S.终点T,在可以将k条边的权值变为 ...
【Python】【demo实验15】【练习实例】【两个数范围内素数的统计】
原题: 判断101-200之间有多少个素数,并输出所有素数. 关于素数的统计,之前已经做过相应的实验了,参考:[显示素数,显示两个数范围内的所有素数] 原题给出的解法,使用math的sqrt函数,这个 ...
【LOJ】#3088. 「GXOI / GZOI2019」旧词
LOJ#3088. 「GXOI / GZOI2019」旧词不懂啊5e4感觉有点小就是离线询问,在每个x上挂上y的询问然后树剖,每个节点维护轻儿子中已经被加入的点的个数个数乘上\(dep[u]^{ ...
用链式字典树解决POJ2945
首先,我们的思路是用链式的字典树结构,解决poj2945这道题题意是,统计所有的字符串出现的次数,并依次输出各个次数的数量例如: input 9 6AAAAAAACACACGTTTTGACACAC ...
python中获取当前位置所在的行号和函数名（转）
http://www.vimer.cn/2010/12/%E5%9C%A8python%E4%B8%AD%E8%8E%B7%E5%8F%96%E5%BD%93%E5%89%8D%E4%BD%8D%E7 ...
linux系统编程相关
基本的概念:程序,进程,并发,单道程序设计,多道程序设计,时钟中断. 存储介质:寄存器(操作系统的位数是针对寄存器而言的,32位识字节,64位就是8字节).缓存cache.内存,硬盘,网络. cpu的 ...
快递100API
url:http://www.kuaidi100.com/query 拼接参数: 参数名称参数取值参数类型 type 快递码,请参考快递100码 String postid 快递单号 String ...
深入分析 Docker 镜像原理
摘要:近日, DaoCloud 软件工程师孙宏亮在 CSDN Container 微信群为大家带来了 Docker 镜像原理的深度分享,本次分享的重点是 Docker 镜像,分享的内容主要包含两个部分 ...

hive优化方式总结

hive优化方式总结的更多相关文章

随机推荐

热门专题