GROUP BY 的实现与优化

由于GROUP BY实际上也同样需要进行排序操作，而且与ORDER
BY相比，GROUP BY主要只是多了排序之后的分组操作。当然，如果在分组的时候还使用了其他的一些聚合函数，那么还需要一些聚合函数的计算。所以，在GROUP
BY的实现过程中，与ORDERBY一样也可以利用到索引。

在MySQL中，GROUP
BY的实现同样有多种（三种）方式，其中有两种方式会利用现有的索引信息来完成GROUP BY，另外一种为完全无法使用索引的场景下使用。下面我们分别针对这三种实现方式做一个分析。

1.
使用松散（Loose）索引扫描实现GROUP
BY

何谓松散索引扫描实现GROUP BY呢？实际上就是当MySQL完全利用索引扫描来实现GROUP
BY的时候，并不需要扫描所有满足条件的索引键即可完成操作得出结果。

下面我们通过一个示例来描述松散索引扫描实现GROUP BY，在示例之前我们需要首先调整一下group_message表的索引，将gmt_create字段添加到group_id和user_id字段的索引中：

sky@localhost: example
08:49:45>
create index idx_gid_uid_gc

->on group_message(group_id,user_id,gmt_create);

QueryOK, rows affected (0.03
sec)

Records:96
Duplicates: 0Warnings:
0sky@localhost : example
09:07:30>drop
index idx_group_message_gid_uid

->on group_message;

QueryOK,
96 rows affected (0.02sec)

Records:96
Duplicates: 0Warnings:
0

然后再看如下Query的执行计划：

sky@localhost: example
09:26:15>
EXPLAIN

->SELECT user_id,max(gmt_create)

->FROM group_message

->WHERE group_id <
10

->GROUP BY group_id,user_id\G

***************************1.
row ***************************

id:1select_type:
SIMPLE

table:group_message

type:range

possible_keys:idx_gid_uid_gc

key:idx_gid_uid_gc

key_len:8ref:
NULL

rows:4Extra:
Using where; Using index forgroup-by

1row
in set (0.00
sec)

我们看到在执行计划的Extra信息中有信息显示“Usingindex
for group-by”，实际上这就是告诉我们，MySQLQueryOptimizer通过使用松散索引扫描来实现了我们所需要的GROUP
BY操作。

下面这张图片描绘了扫描过程的大概实现：要利用到松散索引扫描实现GROUP BY，需要至少满足以下几个条件：

GROUP BY
条件字段必须在同一个索引中最前面的连续位置；

在使用GROUP BY的同时，只能使用MAX和MIN这两个聚合函数；

如果引用到了该索引中GROUP BY条件之外的字段条件的时候，必须以常量形式存在；

为什么松散索引扫描的效率会很高？

因为在没有WHERE子句，也就是必须经过全索引扫描的时候，松散索引扫描需要读取的键值数量与分组的组数量一样多，也就是说比实际存在的键值数目要少很多。而在WHERE子句包含范围判断式或者等值表达式的时候，松散索引扫描查找满足范围条件的每个组的第1个关键字，并且再次读取尽可能最少数量的关键字。

2.
使用紧凑（Tight）索引扫描实现GROUP
BY

紧凑索引扫描实现GROUP BY和松散索引扫描的区别主要在于他需要在扫描索引的时候，读取所有满足条件的索引键，然后再根据读取恶的数据来完成GROUP
BY操作得到相应结果。

sky@localhost: example
08:55:14>
EXPLAIN

->SELECT max(gmt_create)

->FROM group_message

->WHERE group_id =
2

->GROUP BY user_id\G

***************************1.
row ***************************

id:1select_type:
SIMPLE

table:group_message

type:ref

possible_keys:idx_group_message_gid_uid,idx_gid_uid_gc

key:idx_gid_uid_gc

key_len:4ref:
const

rows:4Extra:
Using where; Using index

1row
in set (0.01
sec)

这时候的执行计划的Extra信息中已经没有“Usingindex
for group-by”了，但并不是说MySQL的GROUP
BY操作并不是通过索引完成的，只不过是需要访问WHERE条件所限定的所有索引键信息之后才能得出结果。这就是通过紧凑索引扫描来实现GROUP
BY的执行计划输出信息。

下面这张图片展示了大概的整个执行过程：

在MySQL中，MySQLQuery
Optimizer首先会选择尝试通过松散索引扫描来实现GROUP BY操作，当发现某些情况无法满足松散索引扫描实现GROUP
BY的要求之后，才会尝试通过紧凑索引扫描来实现。

当GROUP BY条件字段并不连续或者不是索引前缀部分的时候，MySQLQuery
Optimizer无法使用松散索引扫描，设置无法直接通过索引完成GROUP BY操作，因为缺失的索引键信息无法得到。但是，如果Query语句中存在一个常量值来引用缺失的索引键，则可以使用紧凑索引扫描完成GROUP
BY操作，因为常量填充了搜索关键字中的“差距”，可以形成完整的索引前缀。这些索引前缀可以用于索引查找。而如果需要排序GROUP
BY结果，并且能够形成索引前缀的搜索关键字，MySQL还可以避免额外的排序操作，因为使用有顺序的索引的前缀进行搜索已经按顺序检索到了所有关键字。3.
使用临时表实现GROUP BY

MySQL在进行GROUP
BY操作的时候要想利用所有，必须满足GROUP BY的字段必须同时存放于同一个索引中，且该索引是一个有序索引（如Hash索引就不能满足要求）。而且，并不只是如此，是否能够利用索引来实现GROUP
BY还与使用的聚合函数也有关系。

前面两种GROUP BY的实现方式都是在有可以利用的索引的时候使用的，当MySQLQuery
Optimizer无法找到合适的索引可以利用的时候，就不得不先读取需要的数据，然后通过临时表来完成GROUP BY操作。

sky@localhost: example
09:02:40>
EXPLAIN

->SELECT max(gmt_create)

->FROM group_message

->WHERE group_id >
1 and group_id <
10

->GROUP BY user_id\G

***************************1.
row ***************************

id:1select_type:
SIMPLE

table:group_message

type:range

possible_keys:idx_group_message_gid_uid,idx_gid_uid_gc

key:idx_gid_uid_gc

key_len:4ref:
NULL

rows:32Extra:
Using where; Using index; Using temporary; Usingfilesort

这次的执行计划非常明显的告诉我们MySQL通过索引找到了我们需要的数据，然后创建了临时表，又进行了排序操作，才得到我们需要的GROUP
BY结果。整个执行过程大概如下图所展示：

当MySQL Query Optimizer发现仅仅通过索引扫描并不能直接得到GROUP
BY的结果之后，他就不得不选择通过使用临时表然后再排序的方式来实现GROUP BY了。

在这样示例中即是这样的情况。group_id并不是一个常量条件，而是一个范围，而且GROUP
BY字段为user_id。所以MySQL无法根据索引的顺序来帮助GROUP
BY的实现，只能先通过索引范围扫描得到需要的数据，然后将数据存入临时表，然后再进行排序和分组操作来完成GROUP BY。

对于上面三种MySQL处理GROUP
BY的方式，我们可以针对性的得出如下两种优化思路：

1.尽可能让MySQL可以利用索引来完成GROUP
BY操作，当然最好是松散索引扫描的方式最佳。在系统允许的情况下，我们可以通过调整索引或者调整Query这两种方式来达到目的；

2.当无法使用索引完成GROUP
BY的时候，由于要使用到临时表且需要filesort，所以我们必须要有足够的sort_buffer_size来供MySQL排序的时候使用，而且尽量不要进行大结果集的GROUP
BY操作，因为如果超出系统设置的临时表大小的时候会出现将临时表数据copy到磁盘上面再进行操作，这时候的排序分组操作性能将是成数量级的下降；

至于如何利用好这两种思路，还需要大家在自己的实际应用场景中不断的尝试并测试效果，最终才能得到较佳的方案。此外，在优化GROUP
BY的时候还有一个小技巧可以让我们在有些无法利用到索引的情况下避免filesort操作，也就是在整个语句最后添加一个以null排序（ORDER
BYnull）的子句，大家可以尝试一下试试看会有什么效果。

GROUP BY 的实现与优化的更多相关文章

一次 group by + order by 性能优化分析
一次 group by + order by 性能优化分析最近通过一个日志表做排行的时候发现特别卡,最后问题得到了解决,梳理一些索引和MySQL执行过程的经验,但是最后还是有5个谜题没解开,希望大家 ...
Mysql group by,order by,dinstict优化
1.order by优化 2.group by优化 3.Dinstinct 优化 1.order by优化实现方式: 1. 根据索引字段排序,利用索引取出的数据已经是排好序的,直接返回给客户端: 2 ...
group by 如何合并字符串优化记？
sqlserver 2005及以上版本表(tb) id value 1 aa 2 cc 3 bb 3 dd 4 aa 4 cc 4 dd ...
三张关联表，大表；单次查询耗时400s，有group by order by 如何优化
问题SQL: select p.person_id as personId, p.person_name as personName, p.native_place as nativePlace, c ...
ORDER BY，GROUP BY 和DI STI NCT 优化
读<MySQL性能调优与架构设计>笔记之ORDER BY,GROUP BY 和DI STI NCT 优化 2015年01月18日 18:51:31 lihuayong 阅读数:2593 标 ...
MySQL性能优化总结
一.MySQL的主要适用场景 1.Web网站系统 2.日志记录系统 3.数据仓库系统 4.嵌入式系统二.MySQL架构图: 三.MySQL存储引擎概述 1)MyISAM存储引擎 MyISAM存储引擎 ...
MySql学习(六) —— 数据库优化理论(二) —— 查询优化技术
逻辑查询优化包括的技术 1)子查询优化 2)视图重写 3)等价谓词重写 4)条件简化 5)外连接消除 6)嵌套连接消除 7)连接消除 8)语义优化 9)非SPJ优化一.子查询优化 1. ...
MySQL性能优化总结（转）https://yq.aliyun.com/articles/24249
摘要: 一.MySQL的主要适用场景 1.Web网站系统 2.日志记录系统 3.数据仓库系统 4.嵌入式系统二.MySQL架构图: 三.MySQL存储引擎概述 1)MyISAM存储引擎 MyIS ...
第 8 章 MySQL 数据库 Query 的优化
前言: 在之前“影响 MySQL 应用系统性能的相关因素”一章中我们就已经分析过了Query语句对数据库性能的影响非常大,所以本章将专门针对 MySQL 的 Query 语句的优化进行相应的分析. ...

随机推荐

linux安装mysql数据库
安装mysql 1.下载MySQL的安装文件安装MySQL需要下面两个文件: MySQL-server-4.0.23-0.i386.rpm MySQL-client-4.0.23-0.i386.rp ...
JAVA学习总结-多线程基础:
参考书籍:疯狂JAVA讲义 1.进程和线程; 进程是处于运行过程中的程序;并且具有一定的独立功能;进程是系统进行系统资源分配和调度的一个独立单位. 一般而言,进程包括以下三个特征: 独立性:进程是系统 ...
JVM之Java虚拟机详解
这篇文章解释了Java 虚拟机(JVM)的内部架构.下图显示了遵守Java SE 7 规范的典型的 JVM 核心内部组件. 上图显示的组件分两个章节解释.第一章讨论针对每个线程创建的组件,第二章节讨论 ...
Mobx使用详解
Mobx是一个功能强大,上手非常容易的状态管理工具.就连redux的作者也曾经向大家推荐过它,在不少情况下你的确可以使用Mobx来替代掉redux. 本教程旨在介绍其用法及概念,并重点介绍其与Reac ...
kafka简单回顾
先说说遇到的坑回顾下kafka topic:生产组:P0\P1----P14 一个消费组:c0 c1 c2 依据Consumer的负载均衡分配消费顺序"c0:p0-p4 c1:p5-p9 ...
leetcode刷题笔记08 字符串转整数 (atoi)
题目描述实现 atoi,将字符串转为整数. 在找到第一个非空字符之前,需要移除掉字符串中的空格字符.如果第一个非空字符是正号或负号,选取该符号,并将其与后面尽可能多的连续的数字组合起来,这部分字符即 ...
vmware 12中安装MAC OS X Lion 10.7
下载并安装vmware. 下载并安装MAC补丁. 创建虚拟机. 设置ISO文件. 开启虚拟机. 安装vmware tools. 1. 下载并安装vmware.我是直接在腾 ...
log4cxx用环境变量设置输出文件名
log4cxx用环境变量设置输出文件名(金庆的专栏 2016.12)利用环境变量,可以用同一个log4j.xml来配置多个相似进程,输出日志到不同文件.例如多个BaseApp进程使用同一个BaseAp ...
mongo 读分析
分布式读读冲突分布式中数据库有多份数据,各份数据可能存在不一致性. mongo 只会写到primary节点上,理论上来说不会有文档冲突,也就是说数据库中的数据都以primary节点为标准. 但是有 ...
UILabel 调整行间距
/* 调整行间距 */ + (void)adjustLineSpacingOfLabel:(UILabel *)label to:(CGFloat)lineSpacing { NSString *te ...

GROUP BY 的实现与优化

GROUP BY 的实现与优化的更多相关文章

随机推荐

热门专题