一，前言
证实

有一张财务流水表，未分库分表，目前的数据量为9555695，分页查询使用到了limit，优化之前的查询耗时16 s 938 ms (execution: 16 s 831 ms, fetching: 107 ms)，按照下文的方式调整SQL后，耗时347 ms (execution: 163 ms, fetching: 184 ms)；

操作： 查询条件放到子查询中，子查询只查主键ID，然后使用子查询中确定的主键关联查询其他的属性字段；

原理： 减少回表操作；

-- 优化前SQL

SELECT  各种字段

FROM `table_name`

WHERE 各种条件

LIMIT 0,10;

-- 优化后SQL

SELECT  各种字段

FROM `table_name` main_tale

RIGHT JOIN

(

SELECT  子查询只查主键

FROM `table_name`

WHERE 各种条件

LIMIT 0,10;

) temp_table ON temp_table.主键 = main_table.主键

找到的原理分析：MySQL 用 limit 为什么会影响性能？

一，前言

首先说明一下MySQL的版本：

mysql> select version();

+-----------+

| version() |

+-----------+

| 5.7.17    |

+-----------+

1 row in set (0.00 sec)

表结构：

mysql> desc test;

+--------+---------------------+------+-----+---------+----------------+

| Field  | Type                | Null | Key | Default | Extra          |

+--------+---------------------+------+-----+---------+----------------+

| id     | bigint(20) unsigned | NO   | PRI | NULL    | auto_increment |

| val    | int(10) unsigned    | NO   | MUL | 0       |                |

| source | int(10) unsigned    | NO   |     | 0       |                |

+--------+---------------------+------+-----+---------+----------------+

3 rows in set (0.00 sec)

id为自增主键，val为非唯一索引。

灌入大量数据，共500万：

mysql> select count(*) from test;

+----------+

| count(*) |

+----------+

|  5242882 |

+----------+

1 row in set (4.25 sec)

我们知道，当limit offset rows中的offset很大时，会出现效率问题：

mysql> select * from test where val=4 limit 300000,5;

+---------+-----+--------+

| id      | val | source |

+---------+-----+--------+

| 3327622 |   4 |      4 |

| 3327632 |   4 |      4 |

| 3327642 |   4 |      4 |

| 3327652 |   4 |      4 |

| 3327662 |   4 |      4 |

+---------+-----+--------+

5 rows in set (15.98 sec)

为了达到相同的目的，我们一般会改写成如下语句：

mysql> select * from test a inner join (select id from test where val=4 limit 300000,5) b on a.id=b.id;

+---------+-----+--------+---------+

| id      | val | source | id      |

+---------+-----+--------+---------+

| 3327622 |   4 |      4 | 3327622 |

| 3327632 |   4 |      4 | 3327632 |

| 3327642 |   4 |      4 | 3327642 |

| 3327652 |   4 |      4 | 3327652 |

| 3327662 |   4 |      4 | 3327662 |

+---------+-----+--------+---------+

5 rows in set (0.38 sec)

时间相差很明显。

为什么会出现上面的结果？我们看一下select * from test where val=4 limit 300000,5;的查询过程：

查询到索引叶子节点数据。根据叶子节点上的主键值去聚簇索引上查询需要的全部字段值。

类似于下面这张图：

像上面这样，需要查询300005次索引节点，查询300005次聚簇索引的数据，最后再将结果过滤掉前300000条，取出最后5条。MySQL耗费了大量随机I/O在查询聚簇索引的数据上，而有300000次随机I/O查询到的数据是不会出现在结果集当中的。

肯定会有人问：既然一开始是利用索引的，为什么不先沿着索引叶子节点查询到最后需要的5个节点，然后再去聚簇索引中查询实际数据。这样只需要5次随机I/O，类似于下面图片的过程：

其实我也想问这个问题。

证实

下面我们实际操作一下来证实上述的推论：

为了证实select * from test where val=4 limit 300000,5是扫描300005个索引节点和300005个聚簇索引上的数据节点，我们需要知道MySQL有没有办法统计在一个sql中通过索引节点查询数据节点的次数。我先试了Handler_read_*系列，很遗憾没有一个变量能满足条件。

我只能通过间接的方式来证实：

InnoDB中有buffer pool。里面存有最近访问过的数据页，包括数据页和索引页。所以我们需要运行两个sql，来比较buffer pool中的数据页的数量。预测结果是运行select * from test a inner join (select id from test where val=4 limit 300000,5); 之后，buffer pool中的数据页的数量远远少于select * from test where val=4 limit 300000,5;对应的数量，因为前一个sql只访问5次数据页，而后一个sql访问300005次数据页。

select * from test where val=4 limit 300000,5

mysql> select index_name,count(*) from information_schema.INNODB_BUFFER_PAGE where INDEX_NAME in('val','primary') and TABLE_NAME like '%test%' group by index_name;Empty set (0.04 sec)

可以看出，目前buffer pool中没有关于test表的数据页。

mysql> select * from test where val=4 limit 300000,5;

+---------+-----+--------+

| id      | val | source |

+---------+-----+--------+|

3327622 |   4 |      4 |

| 3327632 |   4 |      4 |

| 3327642 |   4 |      4 |

| 3327652 |   4 |      4 |

| 3327662 |   4 |      4 |

+---------+-----+--------+

5 rows in set (26.19 sec)

mysql> select index_name,count(*) from information_schema.INNODB_BUFFER_PAGE where INDEX_NAME in('val','primary') and TABLE_NAME like '%test%' group by index_name;

+------------+----------+

| index_name | count(*) |

+------------+----------+

| PRIMARY    |     4098 |

| val        |      208 |

+------------+----------+2 rows in set (0.04 sec)

可以看出，此时buffer pool中关于test表有4098个数据页，208个索引页。

select * from test a inner join (select id from test where val=4 limit 300000,5) ;为了防止上次试验的影响，我们需要清空buffer pool，重启mysql。

mysqladmin shutdown

/usr/local/bin/mysqld_safe &

mysql> select index_name,count(*) from information_schema.INNODB_BUFFER_PAGE where INDEX_NAME in('val','primary') and TABLE_NAME like '%test%' group by index_name;

Empty set (0.03 sec)

运行sql：

mysql> select * from test a inner join (select id from test where val=4 limit 300000,5) b on a.id=b.id;

+---------+-----+--------+---------+

| id      | val | source | id      |

+---------+-----+--------+---------+

| 3327622 |   4 |      4 | 3327622 |

| 3327632 |   4 |      4 | 3327632 |

| 3327642 |   4 |      4 | 3327642 |

| 3327652 |   4 |      4 | 3327652 |

| 3327662 |   4 |      4 | 3327662 |

+---------+-----+--------+---------+

5 rows in set (0.09 sec)

mysql> select index_name,count(*) from information_schema.INNODB_BUFFER_PAGE where INDEX_NAME in('val','primary') and TABLE_NAME like '%test%' group by index_name;

+------------+----------+

| index_name | count(*) |

+------------+----------+

| PRIMARY    |        5 |

| val        |      390 |

+------------+----------+

2 rows in set (0.03 sec)

我们可以看明显的看出两者的差别：第一个sql加载了4098个数据页到buffer pool，而第二个sql只加载了5个数据页到buffer pool。符合我们的预测。也证实了为什么第一个sql会慢：读取大量的无用数据行（300000），最后却抛弃掉。而且这会造成一个问题：加载了很多热点不是很高的数据页到buffer pool，会造成buffer pool的污染，占用buffer pool的空间。遇到的问题

为了在每次重启时确保清空buffer pool，我们需要关闭innodb_buffer_pool_dump_at_shutdown和innodb_buffer_pool_load_at_startup，这两个选项能够控制数据库关闭时dump出buffer pool中的数据和在数据库开启时载入在磁盘上备份buffer pool的数据。

Java 的知识面非常广，面试问的涉及也非常广泛，重点包括：Java 基础、Java 并发，JVM、MySQL、数据结构、算法、Spring、微服务、MQ 等等，涉及的知识点何其庞大，所以我们在复习的时候也往往无从下手，今天小编给大家带来一套 Java 面试题，题库非常全面，包括 Java 基础、Java 集合、JVM、Java 并发、Spring全家桶、Redis、MySQL、Dubbo、Netty、MQ 等等，包含 Java 后端知识点 2000 +

资料获取方式：关注公众号：“程序员白楠楠”获取上述资料

一张900w的数据表，16s执行的SQL优化到300ms？的更多相关文章

2016/05/13 thinkphp 3.2.2 ① 数据删除及执行原生sql语句 ②表单验证
[数据删除及执行原生sql语句] delete() 返回受影响的记录条数 $goods -> delete(30); 删除主键值等于30的记录信息 $goods -> delete( ...
Mysql学习---视图/触发器/存储过程/函数/执行计划/sql优化 180101
视图视图: 视图是一个虚拟表(非真实存在),动态获取数据,仅仅能做查询操作本质:[根据SQL语句获取动态的数据集,并为其命名],用户使用时只需使用[名称]即可获取结果集,并可以将其当作表来使用.由 ...
大数据量高并发访问SQL优化方法
保证在实现功能的基础上,尽量减少对数据库的访问次数:通过搜索参数,尽量减少对表的访问行数,最小化结果集,从而减轻网络负担:能够分开的操作尽量分开处理,提高每次的响应速度:在数据窗口使用SQL时,尽量把 ...
SQL Server 查看数据表占用空间大小的SQL语句
) ) if object_id('tempdb..#space') is not null drop table #space ),rows ),data ),index_size ),unused ...
4W条人才表循环处理业务sql优化过程
场景: 使用windows服务定时更新合同数据:执行存储过程(pas_RefreshContractStatus),但存储过程里面有一个需要更新4W条人才表循环处理业务问题: 循环更新4W条人才表状 ...
从两表连接看Oracle sql优化器的效果
select emp.*,dept.* from tb_emp03 emp,tb_dept03 dept where emp.deptno=dept.id -- 不加hint SQL> sele ...
MySQL数据库查询某个库下有几张数据表
如果统计某数据库中存在多少张数据表,使用如下SQL检索语句即可: SELECT COUNT(*) TABLES, table_schema FROM information_schema.TABLES ...
大数据技术之_19_Spark学习_03_Spark SQL 应用解析 + Spark SQL 概述、解析、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器
第1章 Spark SQL 概述1.1 什么是 Spark SQL1.2 RDD vs DataFrames vs DataSet1.2.1 RDD1.2.2 DataFrame1.2.3 DataS ...
Oracle 11g系列：数据表对象
Oracle数据库的下一层逻辑结构并非数据表,而是表空间.每个数据表都属于唯一的表空间. 1.Oracle表空间与数据表相同,Oracle表空间是一个逻辑对象,而非物理对象,是数据库的组成部分.当使 ...

随机推荐

联赛%你测试10T2：漫无止境的八月
题意: 思路: 有几个特殊的性质: 在不考虑q里面的单点修改,我们先只判断一个序列是否Yes. 我们注意到每次操作都是对一个长度为k的区间进行区间加减1的操作,所以我们如果将序列里面的数按%k分组,把 ...
【二分】CF Round #587 (Div. 3)E2 Numerical Sequence (hard version)
题目大意有一个无限长的数字序列,其组成为1 1 2 1 2 3 1.......1 2 ... n...,即重复的1~1,1~2....1~n,给你一个$k$,求第\(k(k<=10^{1 ...
spring boot:配置druid数据库连接池(开启sql防火墙/使用log4j2做异步日志/spring boot 2.3.2)
一,druid数据库连接池的功能? 1,Druid是阿里巴巴开发的号称为监控而生的数据库连接池它的优点包括: 可以监控数据库访问性能 SQL执行日志 SQL防火墙 2,druid的官方站: http ...
一文读懂MySQL的事务隔离级别及MVCC机制
回顾前文: 一文学会MySQL的explain工具一文读懂MySQL的索引结构及查询优化 (同时再次强调,这几篇关于MySQL的探究都是基于5.7版本,相关总结与结论不一定适用于其他版本) 就软件开 ...
<!DOCTYPE>，<address>，<applet>的用法
希望以下内容能让大家有所收获 HTML <!DOCTYPE> 标签实例 <!DOCTYPE html> <html> <head> <title ...
2020年Java基础超高频面试题汇总（1.2W字详细解析）
1. Java语言有哪些特点 (1)简单易学.有丰富的类库 (2)面向对象(Java最重要的特性,让程序耦合度更低,内聚性更高) (3)与平台无关性(JVM是Java跨平台使用的根本) (4)可靠安全 ...
Dubbo 常用模型
先了解如下几个概念 Invoker Invoker 是实体域,它是 Dubbo 的核心模型,其它模型都向它靠扰,或转换成它,它代表一个可执行体,可向它发起 invoke 调用,它有可能是一个本地的实现 ...
npm 注册淘宝镜像
临时使用 npm --registry https://registry.npm.taobao.org install express 1 2.持久使用 npm config set registry ...
【CF1436C】Binary Search 题解
原题链接题意简介要求有多少种 n 的排列,能够通过二分法正确地找到放在 pos 处的数字 x. 答案对 1e9+7 取模.n<=1000. 采用的二分法如下图: 思路分析首先,这个排列中有 ...
如何分析、排查、解决Redis变慢问题？
关于如何分析.排查.解决Redis变慢问题,根据实践总结了一些清单如下: 1.使用复杂度过高的命令(例如SORT/SUION/ZUNIONSTORE/KEYS),或一次查询全量数据(例如LRANGE ...

一张900w的数据表，16s执行的SQL优化到300ms？

一，前言

证实

一张900w的数据表，16s执行的SQL优化到300ms？的更多相关文章

随机推荐

热门专题