table_rows查询优化
日常应用运维工作中,Dev或者db本身都需要统计表的行数,以此作为应用或者维护的一个信息参考。也许很多人会忽略select count(*) from table_name类似的sql对数据库性能的影响,可当你在慢日志平台看到执行了数千次,每次执行4秒左右的查询,你还会无动于衷吗?作为一个有担当敢于挑战的dba,你们应该勇于说no,我觉得类似的需求不可避免但不应该是影响数据库性能的因素,如果连这个都摆不平公司还能指望你干什么。经过几番深思总结,我根据查询的需求,分为模糊查询和精确查询,可以通过下面的三种方式来择优选择。下面测试是线上一个日志表,表大小在6个G左右。
1、精确查询知晓表中数据行数,这个时候我们就要使用count()函数来统计表中行数的大小了。在innodb存储引擎中count(*)函数是先从内存中读取表中的数据到内存缓冲区,然后全表扫描获得记录行数的。但是这种方式过于简单、直接暴力,对于小表查询比较合适,对于频繁的大表查询就不适用了。尤其是在生产中表很大,且表除了聚集索引(主键索引)外,没有其他非聚集索引(二级索引)的时候,无疑是一种巨大的灾难。
mysql> select count(*) from operation_log;
+----------+
| count(*) |
+----------+
| 21049180 |
+----------+
1 row in set (10.92 sec) mysql> explain select count(*) from rule_ceshi.operation_log;
+----+-------------+---------------+-------+---------------+----------+---------+------+----------+-------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+---------------+-------+---------------+----------+---------+------+----------+-------------+
| 1 | SIMPLE | operation_log | index | NULL | user_key | 194 | NULL | 20660338 | Using index |
+----+-------------+---------------+-------+---------------+----------+---------+------+----------+-------------+
1 row in set (0.00 sec) mysql> show index from rule_ceshi.operation_log;
+---------------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| Table | Non_unique | Key_name | Seq_in_index | Column_name | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment | Index_comment |
+---------------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| operation_log | 0 | PRIMARY | 1 | id | A | 20660338 | NULL | NULL | | BTREE | | |
| operation_log | 1 | user_key | 1 | user_key | A | 2951476 | NULL | NULL | | BTREE | | |
+---------------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
2 rows in set (0.00 sec) mysql> drop index user_key on rule_ceshi.operation_log;
Query OK, 0 rows affected (0.19 sec)
Records: 0 Duplicates: 0 Warnings: 0 mysql> select count(*) from rule_ceshi.operation_log;
+----------+
| count(*) |
+----------+
| 21049180 |
+----------+
1 row in set (23.39 sec)
上面的测试结果表明,count(*)走聚集索引和非聚集索引都是索引全扫描,但是走非聚集索引比走聚集索引获取记录数更快,这是为什么呢?我们通常不是说走主键索引是最快,难道这个原则在这里不适用还是优化器出现bug。当我产生这个疑问的时候,也曾这样怀疑,经过几次度娘和翻墙后,排除错误答案 ,终于可以很遗憾的告诉你主键索引确实是最快的,只是主键索引查询是有前提条件的,至于什么条件烦请查看我下一篇关于count(*)怎么走索引,走那种索引分析。
2、上面的方式对单次查询,在足够配置的物理机上,显然我们还是可以接受的。然而很多次的类似sql出现,对数据库的性能也是一种不必要的损耗,因为这对业务发展并没有很深的意义。我们知道对于select count(*) from table_name这样的sql是没有办法通过索引优化的,那么只能通过改写sql进行优化了,这也是一个精通sql优化高手必备的技能。
如果你也想精确查询表中的行数,又想查询的时间能尽可能短,这个时候我们就要想到max()和min()函数了,通常我们统计最大值和最小值都是很快返回结果的。
mysql> select ifnull(max(id),0)-ifnull(min(id),0)+1 as rows from rule_ceshi.operation_log;
+----------+
| rows |
+----------+
| 21124162 |
+----------+
1 row in set (0.02 sec) mysql> explain select ifnull(max(id),0)-ifnull(min(id),0)+1 as rows from rule_ceshi.operation_log;
+----+-------------+-------+------+---------------+------+---------+------+------+------------------------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+-------+------+---------------+------+---------+------+------+------------------------------+
| 1 | SIMPLE | NULL | NULL | NULL | NULL | NULL | NULL | NULL | Select tables optimized away |
+----+-------------+-------+------+---------------+------+---------+------+------+------------------------------+
1 row in set (0.01 sec)
当然使用这种优化改写的前提是你的上产中表中有主键且是整数类型的,主键还需是连续的,也就是你的上产中没有进行过delete from table where xxx=xxx的删除行记录操作,否则这样统计还是不精准的。
3、我们知道MySQL自带一个统计信息,平时我们的show命令之类的都来源数据库中的统计表。如果我们的Dev告诉我们,只需要模糊查询知晓表中数据行数呢?这个时候,你就可以通过MySQL自带的information_schema.tables表的统计信息,初步判断表的数据行大小。
mysql> select table_schema,table_name,table_type,table_rows from information_schema.tables where table_schema='rule_ceshi' and table_name='operation_log';
+--------------+---------------+------------+------------+
| table_schema | table_name | table_type | table_rows |
+--------------+---------------+------------+------------+
| rule_ceshi | operation_log | BASE TABLE | 20660338 |
+--------------+---------------+------------+------------+
1 row in set (0.01 sec) mysql> explain select table_schema,table_name,table_type,table_rows from information_schema.tables where table_schema='rule_ceshi' and table_name='operation_log';
+----+-------------+--------+------+---------------+-------------------------+---------+------+------+---------------------------------------------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+--------+------+---------------+-------------------------+---------+------+------+---------------------------------------------------+
| 1 | SIMPLE | tables | ALL | NULL | TABLE_SCHEMA,TABLE_NAME | NULL | NULL | NULL | Using where; Open_full_table; Scanned 0 databases |
+----+-------------+--------+------+---------------+-------------------------+---------+------+------+---------------------------------------------------+
1 row in set (0.00 sec)
上面这种方式对于dba日常维护,判断一个表的行数大小很有作用,必需知晓。
table_rows查询优化的更多相关文章
- WebGIS中基于控制点库进行SHP数据坐标转换的一种查询优化策略
文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/ 1.前言 目前项目中基于控制点库进行SHP数据的坐标转换,流程大致为:遍 ...
- 20170103简单解析MySQL查询优化器工作原理
转自博客http://www.cnblogs.com/hellohell/p/5718238.html 感谢楼主的贡献 查询优化器的任务是发现执行SQL查询的最佳方案.大多数查询优化器,包括MySQL ...
- MySQL索引原理及慢查询优化
原文:http://tech.meituan.com/mysql-index.html 一个慢查询引发的思考 select count(*) from task where status=2 and ...
- Atitit Mysql查询优化器 存取类型 范围存取类型 索引存取类型 AND or的分析
Atitit Mysql查询优化器 存取类型 范围存取类型 索引存取类型 AND or的分析 Atitit Mysql查询优化器 存取类型 范围存取类型 索引存取类型 AND or的分析1 存 ...
- Atitit sql计划任务与查询优化器--统计信息模块
Atitit sql计划任务与查询优化器--统计信息模块 每一个统计信息的内容都包含以上三部分的内容. 我们依次来分析下,通过这三部分内容SQL Server如何了解该列数据的内容分布的. a.统计信 ...
- Atitit 查询优化器的流程attilax总结
Atitit 查询优化器的流程attilax总结 1.1. 来理解该过程:1 1.2. 关于这些优化器的最重要原则的就是:尽可能的减少扫描范围,2 1.3. .筛选条件分析2 1.4. 二.索引优化2 ...
- SQL高性能查询优化语句(总结)
SQL 高性能查询优化语句,一些经验总结 1.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where ...
- mysql查询优化建议(百度)
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使 ...
- MySQL查询优化之explain的深入解析
在分析查询性能时,考虑EXPLAIN关键字同样很管用.EXPLAIN关键字一般放在SELECT查询语句的前面,用于描述MySQL如何执行查询操作.以及MySQL成功返回结果集需要执行的行数.expla ...
随机推荐
- ehcache的基本使用及Spring整合
1.ehcache:百度百科这样解释的,EhCache 是一个纯Java的进程内缓存框架,具有快速.精干等特点,是Hibernate中默认的CacheProvider.总的来说,他的出现就是减少对数据 ...
- 关于 Java 面试,你应该准备这些知识点
来源:占小狼, www.jianshu.com/p/1b2f63a45476 马老师说过,员工的离职原因很多,只有两点最真实: 钱,没给到位 心,受委屈了 当然,我是想换个平台,换个方向,想清楚为什么 ...
- 项目部署到Tomcat报错
1.今天晚上,我想把dojo项目部署到Tomcat中,结果发现部署不了,Tomcat报错.而且,这个错误白天时也碰到了. 错误具体详细如下: Publishing failed with multip ...
- 网页版Rstudio︱RStudio Server多人在线协作开发
网页版Rstudio︱RStudio Server多人在线协作开发 想了解一下RStudio Server,太给力的应用,可以说成是代码分布式运行,可以节省时间,放大空间. RStudio是一个非常优 ...
- vxWorks内核实现基本原理
内核实现基本原理 VxWorks 内核维护三个队列:tick队列.ready 队列.active 队列.另外还有一个队列涉及任务,即任务等待资源时所处的队列,这个队列可以是VxWorks内核提 ...
- 错误代码: 1247 Reference 'startTime' not supported (forward reference in item list)
1.错误描述 1 queries executed, 0 success, 1 errors, 0 warnings 查询:SELECT a.createUserId AS typeId, (SELE ...
- 安装STS报错(一)
安装STS报错 1.具体报错如下 2.报错原因 3.解决办法
- com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxError Exception
1.错误描述 com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxError Exception:You have an error in your SQL synt ...
- css设置居中的方案总结
回想一下,自己平时项目里遇到的比较多的就是css如何让元素居中显示,其实差不多每种情况都遇到过,所采用的方法也都各有利弊,下面对这些方法来做个概括,对其中的坑点,也会一一指出来,希望能给遇到问题的同学 ...
- RobotFramework下HttpLibrary库其它关键字
关键字 使用描述 DELETE 向服务器端发送http delete请求,该请求接收一个参数[ url ],请求的方式和post请求非常类似,示例: DELETE /_utils/config.htm ...