MySQL Execution Plan--IN查询计划
对于IN查询,MySQL会根据当前表数据结构(索引)和数据分布(统计信息和预估)生成多种执行计划,并根据执行成本挑选出“最优执行计划”。
假设有查询
SELECT *
FROM student
WHERE class_id IN (1,2,3,4);
有下面三种执行计划:
1、对表student做表扫描
2、循环IN列表中每个值,对表student上class_id列做索引查找
3、计算IN列表中最大值和最小值,对表student上class_id列做索引范围扫描
方式1:对表student做表扫描
对表做全表扫描,遍历student表的每行数据,找出每行匹配IN条件的记录并返回。查询效率与表数据量成正比。
伪代码:
def get_students_01():
class_id_list=(1,2,3,4)
matched_rows=[]
for student_row in (table scan in table student):
if student_row.class_id in class_id_list:
matched_rows.append(student_row)
return matched_rows
适用场景:
1、列class_id上无索引,导致只能全表扫描
2、满足IN条件的数据占整表数据比重较大时,如表中班级ID仅有(1,2,3,4,5),需要查询满足(1,2,3,4)的记录,表中大部分数据都满足该条件,如果使用列class_id做索引查找+PRIMARY KEY LOOKUP操作,PRIMARY KEY LOOKUP操作会产生大量随机IO,执行成本远超过全表扫描产生的顺序IO。
性能问题:
当列class_id上存在索引且满足IN条件的数据占整表数据比重较小时,全表扫描会访问大量“无用数据”,浪费IO和CPU资源,导致性能问题。如全表数据有1000W,满足IN条件的数据仅有10行,此时使用INDEX SEEK+KEY LOOPUP会效率更高。
方式2:循环IN列表中每个值,对表student上class_id列做索引查找
循环取出IN列表中每个值,并使用该值去表student中根据class_id做等值查询,然后做PRIMARY KEY LOOPUP,最后将每个IN列表值查询结果汇总后返回
伪代码:
def get_students_02():
class_id_list=(1,2,3,4)
matched_rows=[]
for tmp_class_id in class_id_list:
for tmp_student_id in (index seek in table student with index idx_class_id where class_id = tmp_class_id):
student_row = (index seek in table student with primary key where student_id = tmp_student_id)
if student_row is not null:
matched_rows.append(student_row)
return matched_rows
适用场景:
1、列class_id上有索引,且列class_id选择性较高,IN列表数据量较少
性能问题:
1、列class_id上有索引,但列class_id选择性较差,需要进行大量KEY LOOPUP操作,产生大量随机IO导致性能问题
2、列class_id上有索引,但IN列表包含值太多,需要进行多次循环,MySQL Server层和存储引擎层需要进行多次交互,引发性能问题。
方式3:计算IN列表中最大值和最小值,对表student上class_id列做索引范围扫描
获取IN列表中最大值和最小值,并使用这两值去表student中根据class_id做范围扫描(顺序IO),对扫描后的结果按照IN列表进行过滤,然后做PRIMARY KEY LOOPUP,最后将所有满足条件的数据汇总返回。
伪代码:
def get_students_02()
class_id_list=(1,2,3,4)
matched_rows=[]
max_class_id=max(class_id_list)
min_class_id=min(class_id_list)
for tmp_student_id in (index seek in table student with index idx_class_id where class_id >=min_class_id and class_id<=max_class_id):
student_row = (index seek in table student with primary key where student_id = tmp_student_id)
if student_row is not null:
if student_row.class_id in class_id_list:
matched_rows.append(student_row)
return matched_rows
方式3是对方式2的优化,通过一次范围扫描来替换循环索引查找。
适用场景:
1、列class_id上有索引,IN列表包含大量值,且值集中在特定范围,如class_id的值分布在0-99999范围,而IN列表的值集中在1000-2000范围,扫描该范围数据可获得所有满足条件的数据。
性能问题:
1、列class_id上有索引,IN列表包含大量值,且值分散在整表范围,如class_id的值分布在0-99999范围,而IN列表的值为(1000,5000,10000,90000),取值在1000-90000范围,需要扫描范围过大,其扫描结果中大量数据不满足IN条件,访问过多“无用数据”,造成性能问题。
扩展知识:
对于IN列表中的值进行预估时,受参数eq_range_index_dive_limit影响,超过阈值后,会导致预估准确率问题。
https://www.cnblogs.com/TeyGao/p/6585879.html
MySQL Execution Plan--IN查询计划的更多相关文章
- MySQL Execution Plan--IN子查询包含超多值引发的查询异常
问题描述 版本:MySQL 5.7.24 SQL语句: SELECT wave_no, SUM(IF(picking_qty IS NULL, 0, picking_qty)) AS PICKED_Q ...
- MySQL Execution Plan--NOT IN查询
在某系统中想使用NOT IN子查询进行数据过滤,SQL为: SELECT * FROM TB001 AS T1 DAY) AND T1.BATCH_NO NOT IN(SELECT BATCH_NO ...
- Mysql优化之Explain查询计划查看
我们经常说到mysql优化,优化中一种常见的方式就是对于经常查询的字段创建索引.那么mysql中有哪些索引类型呢? 一.索引分类1.普通索引:即一个索引只包含单个列,一个表可以有多个单列索引 2.唯一 ...
- MySQL Execution Plan--IN子查询对UPDATE语句影响
问题描述 在系统中发现一条执行时间为为44652.060734秒(12.5小时)的慢SQL,SQL语句为: UPDATE ob_internal_task SET OPERATE_STATUS WHE ...
- MySQL Execution Plan--IN子查询包含超多值引发的查询异常1
======================================================================= SQL语句: SELECT wave_no, SUM(I ...
- Execution Plan 执行计划介绍
后面的练习中需要下载 Demo 数据库, 有很多不同的版本, 可以根据个人需要下载. 下载地址 -http://msftdbprodsamples.codeplex.com/ 1. 什么是执行计划 ...
- SQLServer查询计划
参考:http://blog.csdn.net/luoyanqing119/article/details/17022649 1. 开启方式 菜单栏:query---Display Estimated ...
- sql server 执行计划(execution plan)介绍
大纲:目的介绍sql server 中执行计划的大致使用,当遇到查询性能瓶颈时,可以发挥用处,而且带有比较详细的学习文档和计划,阅读者可以按照我计划进行,从而达到对执行计划一个比较系统的学习. 什么是 ...
- MySQL的查询计划中ken_len的值计算
本文首先介绍了MySQL的查询计划中ken_len的含义:然后介绍了key_len的计算方法:最后通过一个伪造的例子,来说明如何通过key_len来查看联合索引有多少列被使用. key_len的含义 ...
- MYSQL查询计划KEY_LEN
http://www.innomysql.com/article/25241.html 1 key_len的含义 2 MySQL中key_len计算规则 3 通过key_len分析联合索引 本文首先介 ...
随机推荐
- JAVA中的责任链模式(CH01)
责任链模式的关键在于每一个任务处理者都必须持有下一个任务处理者的作用 纯的责任链:纯的责任链是只能也必须只有一个任务处理者去处理这个任务, 不会出现没有处理者处理的情况,也不会出现有多个处 ...
- linux安装nord,卸载nord源
需要提前准备好:能使用的sock代理. 1.在这里 https://nordvpn.com/zh/download/linux/ 下载初始安装包,这包不是真正的软件,而是会给你添加一个源,大概为了安全 ...
- 第三方API使用的好习惯
1自己封装API接口 有些不很稳定的API接口,最好还是自己封装隔离后再使用,否则哪天它一改接口,那我得到处替换了 比如融云的群组,聊天室
- [Oracle] 使用PL/SQL Developer 连接远程数据库
1.在登录界面选择: Database改成xxx.xxx.xxx.xxx/ORCL,如果数据库不是默认的ORCL,那么就改成相应的数据库名. 2.如果失败: 修改ORACLE安装目录下的\produc ...
- [Hibernate] One-To-Many 配置文件和注解的方式以及HQL语句
一对多需要在一的类配置多的类的set泛型集合. 多的一端需要添加一的类作为属性,其和数据库对应的是对应表的主键. 一个购物车有多个商品,购物车有个cart_id作为主键,商品除了自己的items_id ...
- Openstack中查看虚拟机console log的几种方法
Openstack中有时候虚拟机启动不正常,这时可以通过查看虚拟机console log能得到一些有用的信息. 有这些方法可以查看或获取虚拟机console log: 1)openstack控制台图形 ...
- SQL Server 2008 分区函数和分区表详解
[摘要]本文详细介绍SQL Server 2008 分区函数和分区表,包括查询某个分区.归档数据.添加分区.删除分区等内容. 当我们数据量比较大的时候,我们需要将大型表拆分为多个较小的表,则只访问部门 ...
- 依赖注入demo
让我们看一个例子: class UserProvider{ protected $connection; public function __construct(){ $this->connec ...
- Java中Annotation用法
其他还可以参考的地址 https://www.cnblogs.com/skywang12345/p/3344137.html Annotation Annotation其实是代码里的特殊标记,这些标记 ...
- Vim 常用配置及插件安装使用
在 Linux 中习惯了 vim 编辑器. 找了一些资料后自己尝试配置起来了.下面是一些过程. 首先需要知道 vim 相关的配置都是写在 ~/.vimrc 文件中.我下面的笔记只配置了一些我常用的功能 ...