hive优化-数据倾斜优化

数据倾斜解决方法，通常从以下几个方面进行考量：

业务上丢弃

• 不参与关联：在on条件上直接过滤
• 随机数打散：比如 null、空格、0等“Other”性质的特殊值

倾斜键记录单独处理

• Join：找出倾斜key，把对应数据插入临时表，如果该表是小表，使用map join解决；
• Group by： set hive.groupby.skewindata = true

数据重分布

• 语法：Distribute By
• 场景：为下一个Stage的Map输入做负载均衡
• 代价：多一个Job

举个栗子：count distinct

--count(distinct ),在数据量大的情况下，效率较低，如果是多count(distinct )效率更低，因为count(distinct)是按group by 字段分组，按distinct字段排序，一般这种分布方式是很倾斜的。

*淘宝一天30亿的pv，按性别分组，分配2个reduce,每个reduce处理15亿数据。

*58房产一天1.5亿的pv，统计全国分二手房、租房等业务线的详情页pv、uv等指标，采用多case when的方式，仅分配一个reduce。

消除count disitnct，可以尝试“用户标签”法。

hive优化-数据倾斜优化的更多相关文章

Hive：数据倾斜
数据倾斜问题数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎.很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题. 数 ...
Hive数据倾斜优化
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显.主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平 ...
Spark性能优化--数据倾斜调优与shuffle调优
一.数据倾斜发生的原理原理:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作.此时如果某个key对应的数据量特 ...
spark 性能优化数据倾斜故障排除
版本:V2.0 第一章 Spark 性能调优 1.1 常规性能调优 1.1.1 常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围 ...
hive大数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显.主要是因为在Job完成后的所得到的 Counters是整个Job的总和,优化是基于这些Counters得出的 ...
Hive 大数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显.主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些 Counters得出 ...
Hive学习之路（十九）Hive的数据倾斜
1.什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点 2.Hadoop 框架的特性 A.不怕数据大,怕数据倾斜 B.Jobs 数比较多的作业运行效率相对比较低,如子查询比较 ...
Hive的数据倾斜
目录什么是数据倾斜 Hadoop框架的特性主要表现容易数据倾斜的情况产生数据清洗的原因业务场景空值产生的数据倾斜不同数据类型关联产生数据倾斜大小表关联查询产生数据倾斜一.什么是数据倾 ...
写好Hive 程序的若干优化技巧和实际案例
使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑.但是一个”好”的Hive程序需要对Hive运行机制有深入的了解,像理解mapreduce作业一样理解Hive QL才能写出正确.高效 ...

随机推荐

ubuntu配置（娱乐工作）
因为目前没有使用ubuntu作为工作的电脑(mac还是好用),所以暂时记录一下别人分享的ubuntu常用软件: 输入法:搜狗输入法虚拟机:virtualbox 浏览器:chromium ide:id ...
SQL Server ->> Memory Allocation Mechanism and Performance Analysis（内存分配机制与性能分析）之 -- Minimum server memory与Maximum server memory
Minimum server memory与Maximum server memory是SQL Server下配置实例级别最大和最小可用内存(注意不等于物理内存)的服务器配置选项.它们是管理SQL S ...
ASP.NET Core - 中间件与管道（1）
今天来讨论一个ASP.NET Core 很重要概念管道和中间件,在ASP.NET Core中,针对HTTP请求采用pipeline也就是通常说的管道方式来处理,而管道容器内可以挂载很多中间件(处理逻辑 ...
ArcSde服务启动后又停止
问题:突然发现ArcSde服务无法启动,“ArcSde服务启动后又停止,......” 环境:Win7+ArcSDE10 +Oracle11g 由于本人使用ArcSde时间不长,基本没有遇到过什么问题 ...
PhoneGap实现重力感应
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
HDU 3292 【佩尔方程求解 && 矩阵快速幂】
任意门:http://acm.hdu.edu.cn/showproblem.php?pid=3292 No more tricks, Mr Nanguo Time Limit: 3000/1000 M ...
tensorflow一个很好的博客
http://blog.csdn.net/mydear_11000/article/details/53197891
可决系数R^2和MSE，MAE，SMSE
波士顿房价预测首先这个问题非常好其实要完整的回答这个问题很有难度,我也没有找到一个完整叙述这个东西的资料,所以下面主要是结合我自己的理解和一些资料谈一下r^2,mean square error 和 ...
Enum介绍
public enum Color { RED, YELLOW, BLUE; } 说明: 使用的是enum关键字而不是class 多个枚举变量之间用逗号隔开枚举变量名大写,多个单词之间用 _ 隔 ...
【luogu P3946 ことりのおやつ】题解
题目链接:https://www.luogu.org/problemnew/show/P3946 交好几遍是因为虽然能过一直有提醒..强迫症qwq #include <bits/stdc++.h ...

hive优化-数据倾斜优化

hive优化-数据倾斜优化的更多相关文章

随机推荐

热门专题