百万级数据mysql查询优化

一.limit越往后越慢的原因

当我们使用limit来对数据进行分页操作的时，会发现：查看前几页的时候，发现速度非常快，比如 limit 200,25，瞬间就出来了。但是越往后，速度就越慢，特别是百万条之后，卡到不行，那这个是什么原理呢。先看一下我们翻页翻到后面时，查询的sql是怎样的：

select * from t_name where c_name1='xxx' order by c_name2 limit 2000000,25;

这种查询的慢，其实是因为limit后面的偏移量太大导致的。比如像上面的 limit 2000000,25 ，这个等同于数据库要扫描出 2000025条数据，然后再丢弃前面的 20000000条数据，返回剩下25条数据给用户，这种取法明显不合理。

二.百万数据模拟

1、创建员工表和部门表，编写存储过程插数据

/*部门表,存在则进行删除 */

drop table if EXISTS dep;

create table dep(

    id int unsigned primary key auto_increment,

    depno mediumint unsigned not null default 0,

    depname varchar(20) not null default "",

    memo varchar(200) not null default ""

);

/*员工表,存在则进行删除*/

drop table if EXISTS emp;

create table emp(

    id int unsigned primary key auto_increment,

    empno mediumint unsigned not null default 0,

    empname varchar(20) not null default "",

    job varchar(9) not null default "",

    mgr mediumint unsigned not null default 0,

    hiredate datetime not null,

    sal decimal(7,2) not null,

    comn decimal(7,2) not null,

    depno mediumint unsigned not null default 0

);

/* 产生随机字符串的函数*/

DELIMITER $

drop FUNCTION if EXISTS rand_string;

CREATE FUNCTION rand_string(n INT) RETURNS VARCHAR(255)

BEGIN

    DECLARE chars_str VARCHAR(100) DEFAULT 'abcdefghijklmlopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ';

    DECLARE return_str VARCHAR(255) DEFAULT '';

    DECLARE i INT DEFAULT 0;

    WHILE i < n DO

    SET return_str = CONCAT(return_str,SUBSTRING(chars_str,FLOOR(1+RAND()*52),1));

    SET i = i+1;

    END WHILE;

    RETURN return_str;

END $

DELIMITER;

/*产生随机部门编号的函数*/

DELIMITER $

drop FUNCTION if EXISTS rand_num;

CREATE FUNCTION rand_num() RETURNS INT(5)

BEGIN

    DECLARE i INT DEFAULT 0;

    SET i = FLOOR(100+RAND()*10);

    RETURN i;

END $

DELIMITER;

/*建立存储过程：往emp表中插入数据*/

DELIMITER $

drop PROCEDURE if EXISTS insert_emp;

CREATE PROCEDURE insert_emp(IN START INT(10),IN max_num INT(10))

BEGIN

    DECLARE i INT DEFAULT 0;

    /*set autocommit =0 把autocommit设置成0，把默认提交关闭*/

    SET autocommit = 0;

    REPEAT

    SET i = i + 1;

    INSERT INTO emp(empno,empname,job,mgr,hiredate,sal,comn,depno) VALUES ((START+i),rand_string(6),'SALEMAN',0001,now(),2000,400,rand_num());

    UNTIL i = max_num

    END REPEAT;

    COMMIT;

END $

DELIMITER;

/*建立存储过程：往dep表中插入数据*/

DELIMITER $

drop PROCEDURE if EXISTS insert_dept;

CREATE PROCEDURE insert_dept(IN START INT(10),IN max_num INT(10))

BEGIN

    DECLARE i INT DEFAULT 0;

    SET autocommit = 0;

    REPEAT

    SET i = i+1;

    INSERT  INTO dep( depno,depname,memo) VALUES((START+i),rand_string(10),rand_string(8));

    UNTIL i = max_num

    END REPEAT;

    COMMIT;

END $

DELIMITER;

2.执行存储过程

/*插入120条数据*/

call insert_dept(1,120);

/*插入500W条数据*/

call insert_emp(0,5000000);

插入500万条数据可能很慢

三.4种查询方式

1.普通limit分页

/*偏移量为100，取25*/

SELECT a.empno,a.empname,a.job,a.sal,b.depno,b.depname

from emp a left join dep b on a.depno = b.depno order by a.id desc limit 100,25;

/*偏移量为4800000，取25*/

SELECT a.empno,a.empname,a.job,a.sal,b.depno,b.depname

from emp a left join dep b on a.depno = b.depno order by a.id desc limit 4800000,25;

执行结果

[SQL]

SELECT a.empno,a.empname,a.job,a.sal,b.depno,b.depname

from emp a left join dep b on a.depno = b.depno order by a.id desc limit 100,25;

受影响的行: 0

时间: 0.001s

[SQL]

SELECT a.empno,a.empname,a.job,a.sal,b.depno,b.depname

from emp a left join dep b on a.depno = b.depno order by a.id desc limit 4800000,25;

受影响的行: 0

时间: 12.275s

越往后，查询效率越慢

2.使用索引覆盖+子查询优化

因为我们有主键id，并且在上面建了索引，所以可以先在索引树中找到开始位置的 id值，再根据找到的id值查询行数据。

/*子查询获取偏移100条的位置的id，在这个位置上往后取25*/

SELECT a.empno,a.empname,a.job,a.sal,b.depno,b.depname

from emp a left join dep b on a.depno = b.depno

where a.id >= (select id from emp order by id limit 100,1)

order by a.id limit 25;

/*子查询获取偏移4800000条的位置的id，在这个位置上往后取25*/

SELECT a.empno,a.empname,a.job,a.sal,b.depno,b.depname

from emp a left join dep b on a.depno = b.depno

where a.id >= (select id from emp order by id limit 4800000,1)

order by a.id limit 25;

执行结果

[SQL]

SELECT a.empno,a.empname,a.job,a.sal,b.depno,b.depname

from emp a left join dep b on a.depno = b.depno

where a.id >= (select id from emp order by id limit 100,1)

order by a.id limit 25;

受影响的行: 0

时间: 0.106s

[SQL]

SELECT a.empno,a.empname,a.job,a.sal,b.depno,b.depname

from emp a left join dep b on a.depno = b.depno

where a.id >= (select id from emp order by id limit 4800000,1)

order by a.id limit 25;

受影响的行: 0

时间: 1.541s

3.起始位置重定义

适用于主键是自增主键的表

/*记住了上次的分页的最后一条数据的id是100，这边就直接跳过100，从101开始扫描表*/

SELECT a.id,a.empno,a.empname,a.job,a.sal,b.depno,b.depname

from emp a left join dep b on a.depno = b.depno

where a.id > 100 order by a.id limit 25;

/*记住了上次的分页的最后一条数据的id是4800000，这边就直接跳过4800000，从4800001开始扫描表*/

SELECT a.id,a.empno,a.empname,a.job,a.sal,b.depno,b.depname

from emp a left join dep b on a.depno = b.depno

where a.id > 4800000

order by a.id limit 25;

执行结果

[SQL]

SELECT a.id,a.empno,a.empname,a.job,a.sal,b.depno,b.depname

from emp a left join dep b on a.depno = b.depno

where a.id > 100 order by a.id limit 25;

受影响的行: 0

时间: 0.001s

[SQL]

SELECT a.id,a.empno,a.empname,a.job,a.sal,b.depno,b.depname

from emp a left join dep b on a.depno = b.depno

where a.id > 4800000

order by a.id limit 25;

受影响的行: 0

时间: 0.000s

这个效率是最好的，无论怎么分页，耗时基本都是一致的，因为他执行完条件之后，都只扫描了25条数据。

4,降级策略（百度的做法）

这个策略是最简单有效的，因为一般的大数据查询都会有搜索条件，没人会关注100页以后的内容，当用户查询页数过大时，给它返回一个错误就行了，例如百度就只能搜索到76页

百万级数据mysql查询优化的更多相关文章

百万级数据 MySQL处理（转）
转自 http://www.cnblogs.com/win7xt/p/3156334.html 使用MySQL处理百万级以上数据时,不得不知道的几个常识最近一段时间参与的项目要操作百万级数据量的 ...
百万级数据mysql分区
1. 什么是表分区? 表分区,是指根据一定规则,将数据库中的一张表分解成多个更小的,容易管理的部分.从逻辑上看,只有一张表,但是底层却是由多个物理分区组成. 2. 表分区与分表的区别分表:指的是通过 ...
MYSQL百万级数据，如何优化
MYSQL百万级数据,如何优化首先,数据量大的时候,应尽量避免全表扫描,应考虑在 where 及 order by 涉及的列上建立索引,建索引可以大大加快数据的检索速度.但是,有些情况索引是 ...
使用POI导出百万级数据到excel的解决方案
1.HSSFWorkbook 和SXSSFWorkbook区别 HSSFWorkbook:是操作Excel2003以前(包括2003)的版本,扩展名是.xls,一张表最大支持65536行数据,256列 ...
JDBC实现往MySQL插入百万级数据
想往某个表中插入几百万条数据做下测试, 原先的想法,直接写个循环10W次随便插入点数据试试吧,好吧,我真的很天真.... DROP PROCEDURE IF EXISTS proc_initData; ...
mysql用存储过程插入百万条数据, 及查询优化
查看所有存储过程: show procedure status; 查看详细存储过程 ptest: show create procedure ptest; 存储过程插入数据: create table ...
利用JDBC或者事物或者调用存储过程实现往MySQL插入百万级数据
转自:http://www.cnblogs.com/fnz0/p/5713102.html 想往某个表中插入几百万条数据做下测试, 原先的想法,直接写个循环10W次随便插入点数据试试吧,好吧,我真的很 ...
教你几招，快速创建 MySQL 五百万级数据，愉快的学习各种优化技巧
我是风筝,公众号「古时的风筝」,一个兼具深度与广度的程序员鼓励师,一个本打算写诗却写起了代码的田园码农! 文章会收录在 JavaNewBee 中,更有 Java 后端知识图谱,从小白到大牛要走的路都在 ...
php - 从数据库导出百万级数据(CSV文件)
将数据库连接信息.查询条件.标题信息替换为真实数据即可使用. <?php set_time_limit(0); ini_set('memory_limit', '128M'); $fileNam ...

随机推荐

[React Hooks长文总结系列一]初出茅庐，状态与副作用
写在开头 React Hooks在我的上一个项目中得到了充分的使用,对于这个项目来说,我们跳过传统的类组件直接过渡到函数组件,确实是一个不小的挑战.在项目开发过程中也发现项目中的其他小伙伴(包括我自己 ...
js数组reduce解析及使用示例
reduce() 简单说,reduce()可以对数组中的每个元素执行一个由您提供的reducer函数(升序执行),函数的返回值分配给累计器,该返回值在数组的每个迭代中被记住,并最后将其结果汇总为单个返 ...
消息中间件-RabbitMQ基本使用
RabbitMQ是实现了高级消息队列协议(AMQP)的开源消息代理软件(亦称面向消息的中间件).RabbitMQ服务器是用Erlang语言编写的,而集群和故障转移是构建在开放电信平台框架上的.所有主要 ...
安装maven工程报错"Failed to execute goal on project...Could not resolve dependencies for project..."
我在qingcheng_interface中Lifecycle目录下执行install命令后报错"Failed to execute goal on project...Could not ...
2021年IT行业八大趋势预测
在新冠疫情的影响下,过去一年的IT行业产生着或多或少的变化.而今,2020年已走过一个季度,本文根据国内外一些调研机构的数据,整合了以下八条更适合国内的2021年IT行业趋势分析,希望能为相关决策者提 ...
mysql架构与存储引擎 (Myisam与Innodb)
mysql抽象架构:可以分为SQL Layer和Storage Engine Layer mysql的engine层是基于表的,不是基于库的,创建表的语句可以指定engine Mysql的架构 Mys ...
你已经用上 5G 网络了吗？
随着各大手机厂商陆续推出 5G 手机,智能手机全面迎来 5G 浪潮.可能有人会发问:如此推崇 5G,5G 能为我们带来什么,我们的生活又会因此而改变多大呢? 什么是 5G? 简单地说,5G 就是第五代 ...
vue中利用.env文件存储全局环境变量，以及配置vue启动和打包命令
目录 1,前言 2,.env文件的作用 3,配置.env文件 4,配置启动命令 5,获取.env中的全局变量 5,实际用处 1,前言分享一下vue项目中利用.env文件存储全局环境变量,以及利于项目 ...
07- HTTP协议详解及Fiddler抓包
HTTP协议简介-超文本传输协议 HTTP协议是请求/响应协议:客户端发送请求到服务器,服务器响应该请求.当前版本为1.1版本. HTTP协议特点 1.简单快速:客户向服务器请求服务时,只需传送请求方 ...
【find】linux文件搜索命令find/locate
参考链接:https://mp.weixin.qq.com/s/y8LeZ0-9D56TWsD-ivPaHQ 一.按文件名称查找按照文件名称查找是 find 最常见的用法,需要注意的是,搜索的文件名 ...

百万级数据mysql查询优化

一.limit越往后越慢的原因

二.百万数据模拟

1、创建员工表和部门表，编写存储过程插数据

2.执行存储过程

三.4种查询方式

1.普通limit分页

2.使用索引覆盖+子查询优化

3.起始位置重定义

4,降级策略（百度的做法）

百万级数据mysql查询优化的更多相关文章

随机推荐

热门专题