hive 中 group by 和 distinct 孰优孰劣？

首先声明一下，hive是什么：

hive 不是数据库，hive 只是一个数据仓库工具，可以用来查询、转化和加载数据，是可以调用 mapreduce 任务、用类 mysql 语法查询HDFS数据的一个工具。

再来说 mapreduce 是什么，mapreduce 是分而治之的一种编程模型，适用于大规模数据集的并行计算，当处理一个查询任务时，先调用 map 任务并行处理，最后用 reduce 任务归约结果。

那么对于一张200w+的表，我们来看一下group by 和 distinct 的执行过程：

set mapreduce.map.java.opts="-Dfile.encoding=UTF-8"; set mapreduce.reduce.java.opts="-Dfile.encoding=UTF-8";

select province,city from seven_dataset_67 group by province,city

set mapreduce.map.java.opts="-Dfile.encoding=UTF-8"; set mapreduce.reduce.java.opts="-Dfile.encoding=UTF-8";

select distinct province,city from seven_dataset_67

这里可能就要问了，不是通常说 group by 的效率高于distinct吗？为什么distinct 和 group by 都调用了 18 个 reduce 任务，distinct 的时间还花费的少一些，其实在数据量不大的情况下，distinct 和 group by的差别不是很大。但是对于count(distinct *) 来说会发生数据倾斜，因为 hive 默认在处理COUNT这种“全聚合(full aggregates)”计算时，它会忽略用户指定的Reduce Task数，而强制使用 1，会发生数据倾斜。

select count(0) from seven_dataset_67

但是仍然要看数据量的大小，在数据量小的情况下去重计数，虽然count(distinct *) 会发生数据倾斜，但是只有执行一次 mapreduce任务，而 select count(0) from(select field from table group by field) 这种要执行两遍 mapreduce 任务，总的时间花费可能不比前者少，如下例子：

select count(0) from (select sales_order_no from seven_dataset_67 group by sales_order_no) a

*但是针对上亿的数据量，数据倾斜就会浪费很多时间，甚至由于机器资源紧张导致运行失败，这种情况就建议使用group by了，不仅可以分组，还能配合聚合函数一起使用*

小结

基础定位差异
- GROUP BY：是分组聚合操作，可以配合聚合函数使用，天然具备去重功能
- DISTINCT：是纯粹去重操作，语法更简洁但功能单一

性能对比关键发现

场景	GROUP BY优势	DISTINCT优势
大数据量复杂分析	多Reducer并行处理，避免单点压力	-
简单去重小数据集	-	执行计划更简洁，减少中间步骤
多字段去重	支持多字段灵活组合	语法更直观
数据倾斜场景	可通过`hive.groupby.skewindata`优化	强制单Reducer处理，风险高

执行原理差异
- GROUP BY：Map阶段按分组字段生成Key，Reduce阶段聚合，支持多Reducer并行
- DISTINCT：Map阶段输出全字段作为Key，强制单Reducer去重

实际场景选择建议

场景特征	推荐方案	原因说明
简单去重+小数据量	DISTINCT	语法简洁，执行计划简单
需要聚合计算	GROUP BY	唯一支持聚合操作的语法
大数据量+潜在倾斜	GROUP BY + 倾斜优化参数	可避免单Reducer瓶颈
多维度组合分析	GROUP BY	支持多字段灵活组合
结果二次筛选	GROUP BY + HAVING	DISTINCT无法实现

对于mysql数据库来说，哪个性能更好？

在 Mysql8.0 之前 group by 会进行隐式排序，导致触发 filesort，sql 执行效率低下， distinct 效率高于 group by。但从 Mysql8.0 开始，Mysql 就删除了隐式排序，所以在语义相同，无索引的情况下，group by 和 distinct 的执行效率也是近乎等价的。

为什么更推崇使用group by？

group by 语义更为清晰
group by 可对数据进行更为复杂的一些处理，相比于distinct来说，group by 的语义明确。且由于distinct 关键字会对所有字段生效，在进行复合业务处理时，group by 的使用灵活性更高，group by 能根据分组情况，对数据进行更为复杂的处理，例如通过 having 对数据进行过滤，或通过聚合函数对数据进行运算

数据倾斜及优化

数据倾斜：即数据分布不均匀导致某些reduce处理数据量过大

数据倾斜实现原理

join实现原理

select name, orderid

from user t1

join order t2

on t1.uid=t2.uid

group by 实现原理

select rank, isonline, count(1)

from city

group by 1, 2

原因

key分布不均匀
业务数据本身的特性
建表时考虑不周
某些SQL语句本身就有数据倾斜

关键词	情形	会出现以下情况
group by	group by 维度过小，某值的数量过多	处理某值的reduce非常耗时
Count Distinct	某特殊值过多	处理此特殊值的reduce耗时
Join	其中一个表较小，但是key集中，key值分布不均匀	分发到某一个或几个Reduce上的数据远高于平均值
	大表与大表，但是分桶的判断字段0值或空值过多	这些空值都由一个reduce处理，非常慢

具体表现

任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。

单一reduce的记录数与平均记录数差异过大，通常可能达到3倍甚至更多。最长时长远大于平均时长。

例如：看到下面这种情况，这肯定是数据倾斜了。map早就完工了，reduce阶段一直卡在99%，而且cumulative cpu的时间还一直在增长，说明整个job还在后台跑着。这种情况下，99%的可能性就是数据发生了倾斜，整个查询任务都在等某个节点完成。

如何解决

Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的分配到各个reduce中，就是解决数据倾斜的根本所在。

join引起数据倾斜的解决方法

关联字段中有空值或者脏数据

如果是由于key值为空或为异常记录，且这些记录不能被过滤掉的情况下：可以考虑给key赋一个随机值，将这些值分散到不同的reduce进行处理。由于null值关联不上，处理后并不影响最终结果。

关联字段中key都为有效值

关联字段中key都为有效值，某些key量大，造成reduce计算量大

如果是一个大表和一个小表join的话，可以考虑使用mapjoin来避免数据倾斜，mapjoin的具体过程如下。分为两步：

通过mapreduce local task, 扫描小表，生成为一个hashtable文件, 并上传到distributed cache
在map阶段，每个mapper, 从distributed cache中读取hashtable文件，扫描大表，并直接在map端join

设置reduce个数参数，提高reduce个数：

set hive.exec.reducers.bytes.per.reducer = 1000000000或

set mapred.reduce.tasks=800 这两个一般不同时使用，

设置每个reduce处理的数据量的大小：

set hive.optimize.skewjoin = true;

set hive.skewjoin.key = skew_key_threshold （default = 100000）

set hive.skewjoin.key = 250000000

可以就按官方默认的1个reduce 只处理1G 的算法，那么skew_key_threshold= 1G/平均行长；或者默认直接设成250000000 (差不多算平均行长4个字节)

巧用MapJoin解决数据倾斜的问题(小表join大表时)

Hive的MapJoin理解：join的操作是在map阶段完成后，如果需要的数据在map的过程中可以访问到则就不再需要reduce了。

例如：小表关联一个超大表时，容易发生数据倾斜，可以使用Mapjoin把小表全部加载到内存，广播的方式分发到不同的map中，在map端进行join，避免reduce处理

select c.channel_name,count(t.requesturl) PV

from ods.cms_channel c

join

(select host,requesturl from  dms.tracklog_5min where day='20241111' ) t

on c.channel_name=t.host

group by c.channel_name

order by c.channel_name;

上面的是一个小表join一个大表的时候，可以使用mapjoin把小表放到内存中处理，语法只需要增加 /*+MAPJOIN(表的名字)*/

select /*+ MAPJOIN(c) */

c.channel_name,count(t.requesturl) PV

from ods.cms_channel c

join

(select host,requesturl from  dms.tracklog_5min where day='20241111' ) t

on c.channel_name=t.host

group by c.channel_name

order by c.channel_name;

数据倾斜的时候，常常如上面这么使用

一般认为在25M以内的数据都是小表：hive.mapjoin.smalltable.filesize=25000000

group by 引起数据倾斜的解决方法

group by 引起数据倾斜的原因是 group by 维度过小，某值的数量过多

设置在map端进行combiner聚合，

set hive.map.aggr=true

开启map之后使用combiner，但是这个通常对数据比较同质的有用，相反，则没有什么意义。

通用的做法是设置下面两个参数：

set hive.groupby.mapaggr.checkinterval = 100000 (默认)执行聚合的条数

set hive.map.aggr.hash.min.reduction=0.5(默认)如果hash表的容量与输入行数之比超过这个数，那么map端的hash聚合将被关闭，默认是0.5，设置为1可以保证hash聚合永不被关闭；

还有一个是set hive.groupby.skewindata=true，这个只针对单列有效。

HiveQL中包含count（distinct）时

如果数据量非常大，执行如 select a,count(distinct b) from t group by a; 类型的SQL时，会出现数据倾斜的问题。

解决方法：采用sum() group by的方式来替换count(distinct)完成计算。

select a,sum(1) from (select a, b from t group by a,b) group by a;