distinct用group by优化

当数据量非常大，在同一个query中计算多个不相关列的distinct时，往往很容易出现数据倾斜现象，导致运行半天都不能得到结果。

比如以下的SQL语句（a, b, c没有相关性）：

select distinct(a), distinct(b), distinct(c) from tableName;

改进方案：把计算的distinct先group by，然后再计算：

select distinct(t.a), distinct(t.b), distinct(t.c)

from(

    select a, b, c from tableName

    group by a, b, c;

)t;

原理：distinct是在reduce里面计算的，再进行merge，而group by的字段会在map这里分N路hash。group by越多，hash分的越随机。

group by中avg以及sum的处理方式：

select

    count(distinct a) as a, count(distinct b) as b,

    count(distinct c) as c, count(distinct d) as d,

    avg(e) as e,

    sum(f) as f

from tablename;

处理方式如下：

select

    count(distinct a) as a, count(distinct b) as b,

    count(distinct c) as c, count(distinct d) as d,

    sum(e)/sum(e_count) as e,  // avg的处理

    sum(f) as f  // sum的处理

from (

    select v.a, v.b, v.c, v.d,

        sum(v.e) as e,

        sum(v.f) as f,

        sum(v.e_count) as e_count

    from(

        select

            a, b, c, d, e, f,

            case when e=null then 0 else 1 end as e_count

        from tablename

    )v

    group by v.a, v.b, v.c, v.d

)t;

distinct用group by优化的更多相关文章

(转)数据库 distinct 和 group by 的区别
这两者本质上应该没有可比性,distinct 取出唯一列,group by 是分组,但有时候在优化的时候,在没有聚合函数的时候,他们查出来的结果也一样. 举例来说可能方便一点. A表 id num a ...
mysql DISTINCT 的实现与优化
DISTINCT实际上和GROUP BY的操作非常相似,只不过是在GROUP BY之后的每组中只取出一条记录而已.所以,DISTINCT的实现和GROUP BY的实现也基本差不多,没有太大的区别.同样 ...
44 答疑（三）--join的写法/Simple nested loop join的性能问题/Distinct和group by的性能/备库自增主键问题
44 答疑(三) Join的写法 35节介绍了join执行顺序,加了straight_join,两个问题: --1 如果用left join,左边的表一定是驱动表吗 --2 如果两个表的join包含多 ...
总结distinct、group by 、row_number()over函数用法及区别
distinct和group by 是一样的,查询去重,只能是全部重复的,也可以理解为针对单例,因为一行有一个字段不一样,他们就会认为这两行内容是不重复的.但是使用row_number()over这个 ...
Mysql查询优化汇总 order by优化例子，group by优化例子，limit优化例子，优化建议
Mysql查询优化汇总 order by优化例子,group by优化例子,limit优化例子,优化建议索引索引是一种存储引擎快速查询记录的一种数据结构. 注意 MYSQL一次查询只能使用一个索引 ...
MySQL中distinct和group by性能比较[转]
MySQL中distinct和group by性能比较[转] 之前看了网上的一些测试,感觉不是很准确,今天亲自测试了一番.得出了结论(仅在个人计算机上测试,可能不全面,仅供参考) 测试过程: 准备一张 ...
mysql distinct跟group by性能
mysql distinct和group by性能 1,测试前的准备 //准备一张测试表 mysql> CREATE TABLE `test_test` ( -> `id` int ...
DISTINCT 与 GROUP BY 的比较
看了很多文章,这两个SQL语句在不同的数据库上面的实现上可能有相同或有不同,但是应当要明确它们在功能概念上的区别,最终得出结论: GROUP BY 用来使用聚集函数获得值,比如 AVG, MAX, M ...
distinct和group by的性能比较
distinct和group by的性能比较当去重复的字段的个数比较多的时候,group by 比distinct要快很多当去重复的字符的个数比较少的时候,distinct 比group by ...

随机推荐

AESDK报错AEGP Magic Error的解决
原因是要先释放了流,再释放流的值,顺序问题导致报错. 解决方法是先释放流的值,再释放流 mSuites->StreamSuite2()->AEGP_DisposeStreamValue(v ...
c++创建一个char数组
char c[] = { 'a', 'b', 'c', '\0' }; char* cp = c; printf(cp); 所有的char类型都以'\0'结尾
atitit.seo 发帖关键词以及链接的制作.doc
atitit.seo 发帖关键词以及链接的制作.doc 1. 关键词的获得(by cate) 1 1.1. 删除统计数量 Cartier(144) 格式 1 1.2. $\d*$ 替换 ...
Atitit.各种数据类型 ( 树形结构,表形数据 ) 的结构与存储数据库 attilax 总结
Atitit.各种数据类型 ( 树形结构,表形数据 ) 的结构与存储数据库 attilax 总结 1. 数据结构( 树形结构,表形数据,对象结构 ) 1 2. 编程语言中对应的数据结构 jav ...
Qt 插件综合编程-基于插件的OpenStreetMap瓦片查看器client(1)-墨卡托投影与坐标控制
(相关的代码能够从https://github.com/goldenhawking/mercator.qtviewer.git直接克隆) 我们如今是准备做一个C/S架构的地图显示控件.就必定牵扯到坐标 ...
navicat 手动设置索引unique，报错duplicate entry "" for key ""
错误场景:仅限于手动设置unique时.在navicat中根据流程:右键表名 -> 设计表 -> 索引 -> 设置某列为unique -> 保存错误图示: 错误原因:这句错误提 ...
JSON 之GSON 解析
一. 谷歌GSON这个Java类库可以把Java对象转换成JSON,也可以把JSON字符串转换成一个相等的Java对象.Gson支持任意复杂Java对象包括没有源代码的对象. 二.Gson解析Json ...
MYSQL数据库的导出的几种方法
mysql的数据导出几种方法从网上找到一些问题是关于如何从MySQL中导出数据,以便用在本地或其它的数据库系统之上:以及将现有数据导入MySQL数据库中. 数据导出数据导出主要有以下几种方法 ...
shell监控脚本,不考虑多用户情况
#!/bin/bash CheckProcess() { if [ "$1" = "" ]; then fi PROCESS_NUM=`ps -ef | gre ...
Mybatis Batch 批量操作
Mybatis Batch 批量操作 http://www.blogjava.net/diggbag/articles/mybatis.html

distinct用group by优化

distinct用group by优化的更多相关文章

随机推荐

热门专题