一.用法

在Mysql中分页查询使用关键字limit。limit的语法如下:

SELECT * FROM tbl LIMIT 5,10; # Retrieve rows 6-15

limit关键字带有两个参数,第一个参数表示相对于第一行的偏移量,第二个参数表示检索出的最大行数。初始化行数的偏移量是0而非1。

同行分页中会根据页码和每页条数计算出limit的偏移量即第一个参数,每页大小即第二个参数,开完成分页查询。

SELECT * FROM tbl LIMIT 5; # Retrieve first 5 rows

如果只有一个参数,表示从偏移量0处开始,返回5行,即:

SELECT * FROM tbl LIMIT 0, 5; # Retrieve first 5 rows

limit工作原理:如以上的limit 5,10,mysql会从偏移量0开始查询出15条,舍弃前面的5条,返回后面的10条。所以limit的工作方式是,查询出(偏移量 + 返回条数)条数据,然后舍弃前面的返回后面的所需条数。

二.问题

使用limit的过程中可能会发生的问题:

问题1. 分页查询性能问题

正如上面的limit的工作原理阐述,如果大数据表中limit分页查询或者查询指定偏移量后的数据,随着偏移量的逐渐增大,limit的性能越来越差,甚至赶上全表扫描。比如为1000w,那么mysql会将偏移的1000w条全部查询出来,这样就极大的影响性能。

注:limit对于返回指定条数的性能极好,从偏移量0出开始,取出指定条数返回即可。

问题2. 查询结果不一致

当order by和limit同时使用时,在order by排序字段上,有重复字段时,会出现相同查询语句的查询结果可能不一致。

官方文档时这样描述:

If multiple rows have identical values in the ORDER BY columns, the server is free to return those rows in any order, and may do so differently depending on the overall execution plan. In other words, the sort order of those rows is nondeterministic with respect to the nonordered columns.

有多行在order by排序字段上具有相同值,可能会按照任意顺序自由返回这些行。换句话说,这些具有相同值的行的顺序具有不确定性。

这时如果再使用limit分页,可能在不同页返回相同行的数据。因为那些相同值的列在每次查询的排序中具有不确定性,第n次排序分页查询出现,依然再下一次的排序分页查询中继续出现。

三.优化

1.分页查询性能优化

分析:

是因为分页时,随着偏移量的增大会造成将偏移量之前的数据也查询一遍导致。

解决方式:

  • 解决方式一:限制查询分页的页码,比如最多只能查询100页。后面的数据属于历史过久的数据,不予展示。简单粗暴,在一些特定场景中可以使用。

  • 解决方式二:上面分析了limit性能差的原因是因为将偏移量的之前的所有数据都查询了一遍——大海捞针,那么如果能让查询从少量数据开始查询那不就ok了——水杯捞针。既然要缩小查询范围,那么就必须过滤,既然过滤,那就必须where。使用了where最好再加上索引,那就更快了。
    经过分析,现在最为关键的是where的条件是什么。当然最好的是属于主键了,不过这个得看应用场景。那么每次分页的时候,where条件的值该怎么办?
    第一:可以将上次分页的结果作为下次分页的条件,这种情况时需要根据条件列进行排序,否则会出现重复结果,order by加上limit又会引发上述问题,可以参照解决。建议使用不重复列——主键、唯一索引列。如:where condition > condition_value order by condition limit 24;
    第二:如果id是连续自增不间断,可以根据页码和页数直接计算出条件,比如:where id > 20 * 24 limit 24;

  • 解决方式三:分析limit查询随着偏移量大时,需要查询前面的所有行,每行数据列非常多,所以导致慢。如果查询前面的行数据非常小,那是不是就快一点。基于此,可以先分页查询出主键,然后再根据主键关联,查询出所需行的全部数据。即使用子查询:select * from table id in (select id from table limit 300000, 10);
    但是这种方式也不会快很多,毕竟还是扫描了前面的全id。

  • 解决方式四:如果只是分页查询某个列,可以使用覆盖索引。针对该列建立索引,然后分页时只扫描整个索引便能获取数据,这样就不用扫描表行,加快分页速度。

2.结果不一致优化

分析:

是因为order by对相同值的排序具有不确定性导致,如果需要结果这个,要么让mysql支持对于前后查询都是一样的顺序,这样就会造成查询上下文了,mysql肯定不会这样设计。要么让排序的依据能够唯一,即排序的值是唯一的。

解决方式:

  • 解决方式一:选择具有唯一值的列进行排序

  • 解决方式二:多列值组合时唯一的情况下,选择多列上排序

四.Mysql对limit的优化

  • 在查询少量的行时,mysql有时使用索引,更多情况会全表扫描;

  • 在order by和limit混合使用时,mysql查询到排序结果中第一个limit的行数即结束,不会再排序所有的结果;

  • 在distinct和limit混合使用时,mysql查询到第一个唯一的limit行数时即返回;

参考

LIMIT Query Optimization
mysql 大数据量分页优化

Mysql系列(五)—— 分页查询及问题优化的更多相关文章

  1. MySQL大数据量分页查询方法及其优化

    MySQL大数据量分页查询方法及其优化   ---方法1: 直接使用数据库提供的SQL语句---语句样式: MySQL中,可用如下方法: SELECT * FROM 表名称 LIMIT M,N---适 ...

  2. MySQL分页查询的性能优化

    MySQL limit分页查询的性能优化 Mysql的分页查询十分简单,但是当数据量大的时候一般的分页就吃不消了. 传统分页查询:SELECT c1,c2,cn… FROM table LIMIT n ...

  3. 分页查询信息(使用jdbc连接mysql数据库实现分页查询任务)

             分页查询信息       使用jdbc连接mysql数据库实现分页查询任务 通过mysql数据库提供的分页机制,实现商品信息的分页查询功能,将查询到的信息显示到jsp页面上. 本项目 ...

  4. 【1】MySQL大数据量分页查询方法及其优化

    ---方法1: 直接使用数据库提供的SQL语句---语句样式: MySQL中,可用如下方法: SELECT * FROM 表名称 LIMIT M,N---适应场景: 适用于数据量较少的情况(元组百/千 ...

  5. MySQL 百万级数据量分页查询方法及其优化

    方法1: 直接使用数据库提供的SQL语句 语句样式: MySQL中,可用如下方法: SELECT * FROM 表名称 LIMIT M,N 适应场景: 适用于数据量较少的情况(元组百/千级) 原因/缺 ...

  6. 高性能MySql进化论(十一):常见查询语句的优化

    总结一下常见查询语句的优化方式 1        COUNT 1.       COUNT的作用 ·        COUNT(table.filed)统计的该字段非空值的记录行数 ·         ...

  7. Mysql系列五:数据库分库分表中间件mycat的安装和mycat配置详解

    一.mycat的安装 环境准备:准备一台虚拟机192.168.152.128 1. 下载mycat cd /softwarewget http:-linux.tar.gz 2. 解压mycat tar ...

  8. 如何选择普通索引和唯一索引《死磕MySQL系列 五》

    系列文章 一.原来一条select语句在MySQL是这样执行的<死磕MySQL系列 一> 二.一生挚友redo log.binlog<死磕MySQL系列 二> 三.MySQL强 ...

  9. mysql和oracle 分页查询(转)

    最近简单的对oracle,mysql,sqlserver2005的数据分页查询作了研究,把各自的查询的语句贴出来供大家学习..... (一). mysql的分页查询 mysql的分页查询是最简单的,借 ...

随机推荐

  1. 设置 WPF 的全球化语言

    https://stackoverflow.com/questions/7454024/setting-culture-en-in-globally-in-wpf-app Thread.Current ...

  2. EFLAGS寄存器(标志寄存器)

    这篇文章不是从0开始的,前面还有一些汇编基础指令以及进制,我都没写,时间问题,还是今天空闲,我才想补一下博文,后面我陆续会把前面知识点渐渐补上.我不会重0基础讲起,中间会以.汇编.C.C++交叉的形式 ...

  3. 软工Alpha七天冲刺

    七天冲刺博客: 1.第一篇Scrum冲刺博客 2.第二篇Scrum冲刺博客 3.第三篇Scrum冲刺博客 4.第四篇Scrum冲刺博客 5.第五篇Scrum冲刺博客 6.第六篇Scrum冲刺博客 7. ...

  4. Django框架(十六)-- 中间件、CSRF跨站请求伪造

    一.什么是中间件 中间件是介于request与response处理之间的一道处理过程,相对比较轻量级,并且在全局上改变django的输入与输出 二.中间件的作用 如果你想修改请求,例如被传送到view ...

  5. JAVA的toString方法的一个小例子

    Object是一个抽象类,他有很有方法,其中的toString方法是我们常见的一个方法,我们可以看这段代码 package com.com.day1; public class ToStringTes ...

  6. 经典的卷积神经网络及其Pytorch代码实现

    1.LeNet LeNet是指LeNet-5,它是第一个成功应用于数字识别的卷积神经网络.在MNIST数据集上,可以达到99.2%的准确率.LeNet-5模型总共有7层,包括两个卷积层,两个池化层,两 ...

  7. Ubuntu下部署Shipyard管理docker

    使用k8s对于我这种新人来说,难度有点大.遂尝试使用Shipyard这个docker web ui工具来进行管理,以方便入门. 首先,我们还是需要在我们的主机上安装docker. 然后官方提供了自动安 ...

  8. 为什么tcp的TIME_WAIT状态要维持2MSL

    本文主要分析为什么TIME_WAIT状态的持续时间是2MSL而不是1MSL,3MSL或其它的时长,而不会详细描述为什么需要TIME_WAIT状态. 阅读本文需要的预备知识: 了解TCP协议的状态变迁: ...

  9. python3中的map对象返回的是迭代器,该迭代器用list()转列表之后,再次用list()转化时会返回空

    练习代码的时候,发现python3中的map()函数返回的可迭代对象,在用list()转成列表之后,再次用list()转列表的时候,获取的是空值(如下所示),所以查了一下python3的map()对象 ...

  10. JVM-卡表(Card Table)

    简介 现代JVM,堆空间通常被划分为新生代和老年代.由于新生代的垃圾收集通常很频繁,如果老年代对象引用了新生代的对象,那么,需要跟踪从老年代到新生代的所有引用,从而避免每次YGC时扫描整个老年代,减少 ...