在上一篇文章中,我们一起了解了关系模型与关系运算相关的知识,接下来我们一起谈谈,面对复杂的关系数据,我们如何来优化,SQL如何玩转更优呢?

在上一篇中抛出了4个关于优化方面的问题:

1.返回表中0.014%的数据应不应该走索引?

2.什么样的列必须建立索引呢?

3.嵌套查询、HASH连接、排序合并连接、笛卡尔连接等怎样玩能达到最优?

4. IN 与EXISTS 谁快谁慢?

整个优化内容篇幅过长,查询优化内容并非一篇文章就能讲明白,更多是需要自己的消化并通过实践运用来得出自己的一套优化体系。文本也是分篇幅进行讲诉,还需慢慢消化其中的内容,目前只针对上诉的两个问题进行了解释,其余两个问题是关于连表查询的优化内容,将在下篇的sql连接查询优化进行细谈。相关的优化知识和经验,也是本人通过自身的学习并通过实践运用,不免存在一定的偏差和错误,如有大佬指正以及其他方面的分享,不甚感激。

SQL简单查询

SQL简单查询

简单查询格式如下:

SELECT * FROM 表名 WHERE 条件

SELECT 字段原名 AS 字段别名

选择条件的构成:

=(等于)、<>(不等于)、<(小于)、>(大于)、<=(不大于)和>=(不小于)

优先级:

NOT优先级高于AND,AND的优先级高于OR。注意使用圆括号的使用。

涉及空值的查询:

空值用NULL表示,表明空值或者不为空值可以用“IS NULL”或 “IS NOT NULL”

字符串的比较:

SQL的习惯用法是在 % 和 _ 之前加上转义符号“\”表示这里的 % 和 _  是一个普通的字符,而不是匹配使用。

如果不把 \ 作为转义符号,只把它当作一个普通字符,可以连续两个 \ 表示一个真正的反斜线 \。

输出的排序:

ORDER BY <字段名> ,提示:默认排序是升序(ASC),可用倒叙(DESC)

聚合运算符:

SUM:求某列中所有值的和;

AVG:求某列中所有值的平均值;

MIN:求某列中的最小值;

MAX:求某列中的最大值;

COUNT:求某列中值的个数。

分组:

在WHERE子句加上GROUP BY ,关键字GROUP BY 后面给出分组属性列表。

注:如果只希望查询满足一定条件的分组情况,可以使用关键字HAVING来选择具有给定条件的分组。

sql优化

在谈及sql查询优化,优化性能是每个优秀的工程师必备的思想之一,无论是面对复杂还是简单的工程不仅仅满足于表现层的结果,哪怕你优化的速度提高了百分之一,都是经历过自己思考的过程,以及走向成熟的过程。

再谈优化之前,先掌握几个重要的概念:基数,选择性,直方图,回表,集群因子,表关系。

基数:某个列唯一键(Distinct_Keys)的数量叫作基数。比如性别列,该列只有男女之分,所以这一列基数是2。主键列的基数等于表的总行数。

例如:select count(distinct name), count(distinct age), count(*) from student 语句查询如下:

count(distinct name) count(distinct age) count(*)
76 34 86

学生当中不重复的名字有76,年龄34,学生人数为86。

基数的高低影响列的数据分布,往往基数高的列通常用作索引,获取数据的命中率高。

那么,回到上面的第一个问题:返回表中0.014%的数据应不应该走索引?

在数据足够多,达到百万千万级的数据时,当查询结果是返回表中5%以内的数据时,应该走索引;当查询结果返回的是超过表中5%的数据时,应该走全表扫描。

也就是说,如果某个列基数很低,该列数据分布就会非常不均衡,由于该列数据分布不均衡,会导致SQL查询可能走索引,也可能走全表扫描。在做 SQL优化的时候,如果怀疑列数据分布不均衡,我们可以使用select列,count(*) from 表 group by 列 order by  desc来查看列的数据分布。

 

选择性:一个操作过滤的记录的比例, 是一个介于 0 和  1 之间的数值。通常工程师在使用查表时,往往会筛选掉不必要的数据列来提高查询速率,这也是一种很直观的优化方式。那么在数据重量级的情况下,我们要怎么来直观的查看选择性呢?通常,基数与总行数的比值再乘以100%就是某个列的选择性。

那么,我们可以回到上诉的第二个问题:什么样的列必须建立索引呢?

在我的之前建立索引的经验中,往往基数高的列,where条件中常用的列来建立索引,但是这样往往还不够,我们无法单一的看基数高的列,where常用条件就来建立索引,此时我们无法确定命中率的高低,所以,通过基数与总行数的比值再乘以100%,就能直观的看出哪些列占比就可以建立索引。当一个列选择性大于20%,说明该列的数据分布就比较均衡了。

直方图:如果没有对基数低的列收集直方图统计信息,基于成本的优化器(CBO)会认为该列数据分布是均衡的。

1.如果没有对基数低的列收集直方图统计信息,基于成本的优化器(CBO)会认 为该列数据分布是均衡的。

2.直方图信息就是以上SQL的查询结果,这些查询结果会保存在数据字典中。这样 当我们查询owner为任意值的时候,CBO总会算出正确的Rows,因为直方图已经知道 每个值有多少行数据。

也就是说,你所执行的sql查询之后,你所查询的结果会保存在数据字典中,这里也涉及到了数更新之后所统计的数据没有更新的话会存在一定的误差,这也是后话了。

如果SQL使用了绑定变量,绑定变量的列收集了直方图,那么该SQL就会引起绑定变量窥探。关于绑定变量窥探的问题,这里也不过多讲诉。

那,什么样的列需要收集直方图呢?

当列出现在where条件中,列的选择性小于1%并 且该列没有收集过直方图,这样的列就应该收集直方图。注意:千万不能对没有出现 在where条件中的列收集直方图。对没有出现在where条件中的列收集直方图完全是做无用功,浪费数据库资源。

回表:当对一个列创建索引之后,索引会包含该列的键值以及键值对应行所在的rowid。通过索引中记录的rowid访问表中的数据就叫回表。回表一般是单块读,回表次数太多 会严重影响SQL性能,如果回表次数太多,就不应该走索引扫描了,应该直接走全表 扫描。

为什么返回表中5%以内的数据走索引、超过表中5% 的数据走全表扫描?

根本原因就在于回表。在无法避免回表的情况下,走索引如果返回数据量太多,必然会导致回表次数太 多,从而导致性能严重下降。

什么样的SQL必须回表?什么样的不需要回表呢?

select *from tablename where ......

这样的sql是必须回表的,所以工程师们在编写sql的时候通常严禁 select * 的出现。

select count(*) from tablename .

这样的sql就不走回表,当查询的列也包含在索引中时,也不需要走回表,所以通常建立索引时,往往会建立组合索引来消除回表,来提升性能。

集群因子:集群因子用于判断索引回表需要消耗的物理I/O次数。上面我们提到,回表是走单块读取,每一条数据的回表它都是一次IO消耗。

1.集群因子的算法,在这我们暂且先不提,但是我们知道集群因子介于表的块数和表行数之间。

2.如果集群因子与块数接近,说明表的数据基本上是有序的,而且其顺序基本与 索引顺序一样。这样在进行索引范围或者索引全扫描的时候,回表只需要读取少量 的数据块就能完成。

3.如果集群因子与表记录数接近,说明表的数据和索引顺序差异很大,在进行索引范围扫描或者索引全扫描的时候,回表会读取更多的数据块。

集群因子只会影响索引范围扫描(INDEX RANGE SCAN)以及索引全扫描 (INDEX FULL SCAN),因为只有这两种索引扫描方式会有大量数据回表。集群因子不会影响索引唯一扫描(INDEX UNIQUE SCAN),因为索引唯一扫描 只返回一条数据。集群因子更不会影响索引快速全扫描(INDEX FAST FULL SCAN),因为索引快速全扫描不回表。

集群因子究竟影响的是什么性能呢?

集群因子影响的是索引回表的物理I/O次 数。我们假设索引范围扫描返回了1 000行数据,如果buffer cache(缓存)中没有缓存表的数据块,假设这1000行数据都在同一个数据块中,那么回表需要耗费的物理I/O就只需要 一个;假设这1000行数据都在不同的数据块中,那么回表就需要耗费1000个物理 I/O。因此,集群因子影响索引回表的物理I/O次数。

请注意,不要尝试重建索引来降低集群因子,这根本没用,因为表中的数据顺序 始终没变。唯一能降低集群因子的办法就是根据索引列排序对表进行重建(create table new_table as select * from old_table order by 索引列),但是这在实际操作中 是不可取的,因为我们无法照顾到每一个索引。

怎么才能避免集群因子对SQL查询性能产生影响呢?

集群因子只影响索引范围扫描和索引全扫描。当索引范围扫描,索引全扫描不回表或者 返回数据量很少的时候,不管集群因子多大,对SQL查询性能几乎没有任何影响。

再次强调一遍,在进行SQL优化的时候,往往会建立合适的组合索引消除回表, 或者建立组合索引尽量减少回表次数。

如果无法避免回表,怎么做才能消除回表对SQL查询性能产生影响呢?

当我们把 表中所有的数据块缓存在buffer cache中,这个时候不管集群因子多大,对SQL查询性 能也没有多大影响,因为这时不需要物理I/O,数据块全在内存中访问速度是非常快 的。

表与表之间的关系:要理清楚表与表之间的关系。

表与表之间存在3种关系。一种是1∶1关系, 一种是1∶N关系,最后一种是N∶N关系。搞懂表与表之间关系,对于SQL优化、SQL等价改写、表设计优化以及分表分库都有巨大帮助。

两表在进行关联的时候,如果两表属于1∶1关系,关联之后返回的结果也是属于1的关系,数据不会重复。如果两表属于1∶N关系,关联之后返回的结果集属于N的关系。如果两表属于N∶N关系,关联之后返回的结果集会产生局部范围的笛卡儿积,N∶N关系一般不存在内/外连接中,只能存在于半 连接或者反连接中。

好了,以上咱们细谈了SQL的简单查询,相关SQL优化的思想,里面内容其实包括了很多,也省略了部分细节没有展开来讲解,有兴趣的伙伴可以多去了解了解,也可以和我分享。最重要的核心优化思想之一,关于优化方面最主要的核心就是:只有大表才会产生性能问题。

SQL查询与SQL优化[姊妹篇.第四弹]的更多相关文章

  1. 深入MySQL(四):MySQL的SQL查询语句性能优化概述

    关于SQL查询语句的优化,有一些一般的优化步骤,本节就介绍一下通用的优化步骤. 一条查询语句是如何执行的 首先,我们如果要明白一条查询语句所运行的过程,这样我们才能针对过程去进行优化. 参考我之前画的 ...

  2. 提高SQL查询效率(SQL优化)

    要提高SQL查询效率where语句条件的先后次序应如何写 http://blog.csdn.net/sforiz/article/details/5345359   我们要做到不但会写SQL,还要做到 ...

  3. linq 大数据 sql 查询及分页优化

    前提: 需要nuget   PredicateLib   0.0.5: SqlServer  2008R2 (建议安装 64 位): .net 4.5 或以上: 当前电脑配置: I7 4核  3.6G ...

  4. 如何提高sql查询性能到达优化程序的目的

    1.关于SQL查询效率,100w数据 SQL查询效率 step by step -- setp 1.-- 建表create table t_userinfo(userid int identity(1 ...

  5. 一次SQL查询语句的优化

    1.项目中之前的"我关注的拍品列表"需要添加筛选功能,因为目前显示的关注的拍品太多没有进行分类,用户体验差. 2.添加筛选条件之后,可以筛选出“未开始”“进行中”“已结束”三种情况 ...

  6. Oracle PL/SQL开发基础(第三十四弹:RAISE_APPLICATION_ERROR)

    RAISE_APPLICATION_ERROR在子程序内部使用时,能从存储子程序中抛出自定义的错误消息.这样就能将错误报告给应用程序而避免范围未捕获异常. 语法如下: RAISE_APPLICATIO ...

  7. spring MVC +freemarker + easyui 实现sql查询和执行小工具总结

    项目中,有时候线下不能方便的连接项目中的数据源时刻,大部分的问题定位和处理都会存在难度,有时候,一个小工具就能实时的查询和执行当前对应的数据源的库.下面,就本人在项目中实际开发使用的小工具,实时的介绍 ...

  8. 数据库查询性能 LinqDB vs Sql查询

    使用LinqDB查询Sqlite数据库数据,不管是大数据还是少量的数据,感觉特别耗时,尤其是首次查询 一个含有2.7万条数据的数据表 首次查询: 查询2.7万条数据,耗时1s 查询指定的1条数据,也要 ...

  9. 在php里写sql查询需要注意的事情

    ---恢复内容开始--- 今天往php里写了一条sql查询, $sql = "select * from videos where vuser=".$u: $ret = mysql ...

随机推荐

  1. 如何解决Ubuntu下的“E: Unable to correct problems, you have held broken packages.”的问题. aptitude

    今天安装build-essential时出现了以下问题,这属于包的依赖. 解决方案: 1,sudo apt-get install aptitude:完成aptitude命令安装 2,sudo apt ...

  2. python学习笔记(八)——文件操作

    在 windows 系统下,我们通过 路径+文件名+扩展名的方式唯一标识一个文件,而在 Linux 系统下通过 路径+文件名唯一标识一个文件. 文件分类:文件主要可以分为文本文件和二进制文件,常见的如 ...

  3. WordPress 网站开发“微信小程序“实战(三)

    本文是"WordPress 开发微信小程序"系列的第三篇,本文记录的是开发"DeveWork+"小程序1.2 版本的过程.建议先看完第一篇.第二篇再来阅读本文. ...

  4. html dom 转化成图片踩坑记(canvas toDataURL)

    需求 在开发过程中遇到这么一个需求,h5页面需要将一个html dom转化成图片,便于用户保存. 面向百度搜索第三方得 html2canvas 和 dom-to-image 两者在写这篇笔记之前在gi ...

  5. java中为什么接口中的属性都默认为static和final?

    1)为什么接口中的属性都默认为static和final?Sun公司当初为什么要把java的接口设计发明成这样?[新手可忽略不影响继续学习]答:马克-to-win:接口中如果可能定义非final的变量的 ...

  6. docker容器与虚拟机区别

  7. 用户USER_HZ与内核HZ的值

    HZ和Jiffies系统定时器timer能够以可编程的方式设定频率,来中断cpu处理器.此频率即hz,为每秒的定时器节拍(tick)数, 对应着内核变量HZ.选择合适的HZ值需要权衡. tick为两个 ...

  8. Mysql集群搭建-实操

    集群安装--准备工作 官网地址 https://dev.mysql.com/doc/refman/5.7/en/mysql-cluster-install-linux-binary.html 一.环境 ...

  9. 『忘了再学』Shell基础 — 8、管道符介绍

    我们之前已经有文章说过管道符了,今天这里再简单总结一下用法. 1.行提取命令grep grep命令的作用,是在指定的文件中,搜索符合条件的字符串. 命令格式: [root@localhost ~ ] ...

  10. Python学习笔记.md

    Python学习笔记 1.变量类型 x=5 int x="ss" string x='a' string x=True bool #查看变量类型 type(x) 2.字符串常用操作 ...