MySQL Execution Plan--NOT IN查询

在某系统中想使用NOT IN子查询进行数据过滤，SQL为：

SELECT * FROM TB001 AS T1

WHERE T1.update_time<DATE_ADD(NOW(),INTERVAL -90 DAY)

AND T1.BATCH_NO NOT  IN(SELECT BATCH_NO FROM TB002 AS T2 )

AND T1.OPT_STATUS=2 AND T1.BATCH_TYPE=10

LIMIT 1000

上面SQL执行时间未6.84秒，相关表数据量为：
表TB001：507716
表TB002：11266065

为验证NOT IN 子查询对查询的影响，移除NOT IN子查询后，SQL调整为：

SELECT * FROM TB001 AS T1

WHERE T1.update_time<DATE_ADD(NOW(),INTERVAL -90 DAY)

AND T1.OPT_STATUS=2 AND T1.BATCH_TYPE=10

LIMIT 1000

SQL执行时间未0.15秒

将上面NOT IN语句转换为程序伪代码：

## 设置limit 返回行数

int limit_row_count=1000

## 使用match_row_list存放满足的记录

match_row_list=[]

## 按照update_time上索引遍历满足update_time条件的记录

## 单次操作消耗约为6，一次按索引键读取+一次按主键读取

for row_item in TB001 where update_time<DATE_ADD(NOW(),INTERVAL -90 DAY):

    ## 按照其他条件过滤记录

    if row_item .OPT_STATUS=2 AND row_item .BATCH_TYPE=10:

        ## 按照子查询过滤记录

        ## 单次操作约为3或4，一次按索引键读取

        if not exists (SELECT BATCH_NO FROM TB002 where BATCH_NO=row_item.BATCH_NO )

            ## 将满足子查询的记录放到list中

            match_row_list.append(row_item)

            ## 满足limit行数后返回

            if match_row_list.length()==limit_row_count:

                retrun match_row_list

该SQL执行效率取决于3点：
1、满足update_time条件的记录总数(TN)
2、满足update_time条件的记录存满足NOT IN子查询的概率(PT)
3、查询需要返回的数据行数即LIMIT数量(LN)
4、对于NOT IN子查询内部，查询仅需要找到第一条满足条件的记录即可返回，子表TB002的数据量与查询时间没有明显关系

假设每遍历一条满足update_time条件的记录的操作消耗为10，查询消耗=10*Min((LN/PT),TN),：
1、最坏情况下，LN/PT的值远大于TN时或TN*PT的值小于LN时，查询需要遍历所有满足update_time条件的记录，即查询消耗最高为=10*TN
2、最佳情况下，当PT概率足够高无限接近于1时，查询遍历LN条数据即可跳出循环，查询最低消耗为=10*LN
3、普通场景下，需要返回的数量LN小于满足NOT IN条件的数量(TN*PT)，查询消耗=10*LN/PT,查询消耗与PT成反比.

数据分布对查询性能影响：
在很多业务场景下，记录满足NOT IN子查询的概率并不是均匀的，以网站注册用户为例，并不是所有用户的购买商品概率都相同，最新注册用户购买商品的概率会远高于两年前注册用户。

扩展知识：
1、在按照索引查找记录(LIMIT 1或EXIST操作)时，查询效率与索引层级相关，受表数据量影响较小，相同表结构下，100万数据量索引层级可能为4，1000万数据量的索引层级也可能为4，此时访问100万数据量表的消耗和访问1000万数据量表的消耗相同和接近。
2、当SQL语句在数据库上执行时，查询优化器会按照统计信息来评估生成执行计划，MySQL内部会按照某些公式对SQL语句进行转换，如IN操作可能会被转换成EXIST操作，也可能依旧为IN操作，这也是结构化查询语言与编译语言的重要区别。

MySQL Execution Plan--NOT IN查询的更多相关文章

sql server 执行计划(execution plan)介绍
大纲:目的介绍sql server 中执行计划的大致使用,当遇到查询性能瓶颈时,可以发挥用处,而且带有比较详细的学习文档和计划,阅读者可以按照我计划进行,从而达到对执行计划一个比较系统的学习. 什么是 ...
Execution Plan 执行计划介绍
后面的练习中需要下载 Demo 数据库, 有很多不同的版本, 可以根据个人需要下载. 下载地址 -http://msftdbprodsamples.codeplex.com/ 1. 什么是执行计划 ...
MySQL 5.5开启慢查询功能
vim /etc/my.cnf [mysqld] slow-query-log = on # 开启慢查询功能 slow_query_log_file = /usr/local/mysql/data/s ...
提高MYSQL百万条数据的查询速度
提高MYSQL百万条数据的查询速度 1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 nul ...
MySQL：动态开启慢查询日志(Slow Query Log)
前言在开发中,高效能的程序也包括高效能的查询,所以优化SQL也是程序员必要技能之一.要优化就必须要有慢日志记录才可以知道哪些查询慢,然后反向去修改慢日志设置方式写入文件写入数据库实践操作 ...
Oracle SQL explain/execution Plan
From http://blog.csdn.net/wujiandao/article/details/6621073 1. Four ways to get execution plan(anyti ...
Oracle、MySql、SQLServer数据分页查询
看过此博文后Oracle.MySql.SQLServer 数据分页查询,在根据公司的RegionRes表格做出了 SQLserver的分页查询语句: 别名.字段 FROM( SELECT row_nu ...
高性能MySQL笔记第6章查询性能优化
6.1 为什么查询速度会慢查询的生命周期大致可按照顺序来看:从客户端,到服务器,然后在服务器上进行解析,生成执行计划,执行,并返回结果给客户端.其中“执行”可以认为是整个生命周期中最重要的阶段. ...
Oracle、MySql、SQLServer 数据分页查询
最近简单的对oracle,mysql,sqlserver2005的数据分页查询作了研究,把各自的查询的语句贴出来供大家学习..... (一). mysql的分页查询 mysql的分页查询是最简单的,借 ...
[mysql] mysql 5.6.X 慢查询日志
慢查询日志一篇好文章,学习保存.... 打开慢查询日志慢查询日志,顾名思义就是记录执行比较慢查询的日志. 查看是否开启慢查询日志: show variables like '%slow%'; 打开 ...

随机推荐

C#以太坊基础入门
在这一部分,我们将使用C#开发一个最简单的.Net控制台应用,来接入以太坊节点,并打印所连接节点旳版本信息.通过这一部分的学习,你将掌握以下技能: 如何使用节点仿真器如何在命令行访问以太坊节点如 ...
ehcache 简介和基本api使用
文章转载自: https://blog.csdn.net/zhouzhiwengang/article/details/59838105 1.ehcahce简介在开发高并发量,高性能的网站应用系统时 ...
[Hibernate] 通过 properties 类和 hql 语句进行动态查询
//需要保证Emp和EmpProperties中的setter和getter以及属性以及参数占位符(:eName) 的一致//动态查询 @Test public void test4(){ EmpP ...
Lab 7-1
Analyze the malware found in the file Lab07-01.exe. Questions and Short Answers How does this progra ...
three.js 第一篇:准备工作
demo展示:https://www.hanjiafushi.com/three/index.html 1:复习向量知识 2:学习矩阵知识 3:推荐先看webGL入门指南,对一些基础性的概念有所了解 ...
基于Xshell使用密钥方式连接远程主机
基于Xshell使用密钥方式连接远程主机连接远程主机,就验证身份而言,一般有两种方式,一种是通过用户密码:另一种通过公钥的方式(Public Key). 图1 xshell支持验证登录用户的方式下 ...
scrapy框架整理
0.安装scrapy框架 pip install scrapy 注:找不到的库,或者安装部分库报错,去python第三方库中找,很详细 https://www.lfd.uci.edu/~gohlke/ ...
python -- while循环，格式化输出，运算符，初识编码
一.while循环 1.语法 while 条件: 循环体(结果) 如果条件为真,则直接执行结果),然后再次判断条件,知道条件为假,停止循环. while True: print('你是谁呢') 退 ...
converting the moment tensor to strie-dip-rake
在多断层求解的试验中,用到了六个基本矩张量: 而显然,尚不能从图中直接读出strke,dip,rake的值,但有关资料给出了这六个基本矩张量的momet tensor: 而找到一个网站可以方便地将mo ...
springcloud Ribbon学习笔记一
上篇已经介绍了如何开发eureka服务并让多个服务进行相互注册,接下来记录如何开发一个服务然后注册到eureka中并能通过ribbon成功被调用开发一个用户服务并注册到eureka中,用户服务负责访 ...

MySQL Execution Plan--NOT IN查询

MySQL Execution Plan--NOT IN查询的更多相关文章

随机推荐

热门专题