对韩峰著《SQL优化最佳实践》P7 案例的质疑

事先申明下，我的DB环境是Oracle Database 11g Enterprise Edition Release 11.2.0.1.0 - 64bit Production，如果与作者环境不同而导致结论差异则另当别论。

该案例做了一个id为varchar类型的两种查询对比，我模拟了一下。

我是这样建表的：

create table tb_varchar2id(

   id varchar2(20) primary key,

   name nvarchar2(20),

   sal number(5,0)

)

insert into tb_varchar2id

select rownum,dbms_random.string('*',dbms_random.value(6,20)),dbms_random.value(1000,30000)  from dual

connect by level<=2000000

order by dbms_random.random

原作中是320万，我机器受限只能弄200万，这个差别不影响作者的思路和我的结论。

建表完提交后，开始第一个查询并观察其执行计划：

SQL> select * from tb_varchar2id where id>='';

已用时间:  00: 00: 00.00

执行计划

----------------------------------------------------------

Plan hash value: 3377844066

-----------------------------------------------------------------------------------

| Id  | Operation         | Name          | Rows  | Bytes | Cost (%CPU)| Time     |

-----------------------------------------------------------------------------------

|   0 | SELECT STATEMENT  |               |  1006K|    45M|  3602   (2)| 00:00:44 |

|*  1 |  TABLE ACCESS FULL| TB_VARCHAR2ID |  1006K|    45M|  3602   (2)| 00:00:44 |

-----------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

   1 - filter("ID">='')

Note

-----

   - dynamic sampling used for this statement (level=2)

这里走的也是全表扫描，cost是3602，作者那边不同的是8927.

再看封闭范围的查询及执行计划：

SQL> select * from tb_varchar2id where id between '' and '';

已用时间:  00: 00: 00.00

执行计划

----------------------------------------------------------

Plan hash value: 1409398992

---------------------------------------------------------------------------------------------

| Id  | Operation                   | Name          | Rows  | Bytes | Cost (%CPU)| Time     |

---------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT            |               |   104K|  4773K|   399   (0)| 00:00:05 |

|   1 |  TABLE ACCESS BY INDEX ROWID| TB_VARCHAR2ID |   104K|  4773K|   399   (0)| 00:00:05 |

|*  2 |   INDEX RANGE SCAN          | SYS_C0011453  |   104K|       |   357   (0)| 00:00:05 |

---------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

   2 - access("ID">='' AND "ID"<='')

Note

-----

   - dynamic sampling used for this statement (level=2)

这把走的是索引范围扫描，cost是399，原著中是5（作者加了索引SYS_C0025295）。

就本例而言，换了查询方式后cost从3602降到399，似乎有了数量级的提升，而原著中8927到5，更是令人瞠目结舌！

很多看官看到这里都要作者所云以为开放(>=)区间查询要次于封闭区间(between)查询了，还以为作者给出了一条可行的优化之路。

但是，下面两条SQL执行结果是不一样的。

select * from tb_varchar2id where id>='1900000';
select * from tb_varchar2id where id between '1900000' and '2000000';

让我们看看它们的数量：

SQL> set autotrace off;

SQL> select count(*) from tb_varchar2id where id>='';

  COUNT(*)

----------

    999995

已用时间:  00: 00: 00.21

SQL> select count(*) from tb_varchar2id where id between '' and '';

  COUNT(*)

----------

    111113

已用时间:  00: 00: 00.00

前者是将近一百万条，后者是十一万条，数据量有一个数量级的差距，cost自然也有一个数量级的差距。

为什么会这样？因为id是varchar2类型，不是number类型，上面SQL在搞字符串比较呢。

就比如运行select * from tb_varchar2id where id>='1900000' and rownum<20;

SQL> select * from tb_varchar2id where id>='' and rownum<20;

ID                   NAME                                            SAL

-------------------- ---------------------------------------- ----------

1900000              YQJQLHKTYVLSZX                                12533

1900001              SPLMMLXO                                      18104

1900002              TYGGIMJCSIWOWUX                                6383

1900003              SYYYNRXSL                                     15890

1900004              GEGQAG                                         9448

1900005              SFGBZMMPOSEVMNEHQ                             20339

1900006              OMQGZZWVEPRWIMTYK                             13421

1900007              PWHATEOVY                                     11135

1900008              TLBRFDWDCEMXFYUXYH                            15930

1900009              ZUIQECXIRQXBTO                                15961

190001               WKEAMSE                                       25082

ID                   NAME                                            SAL

-------------------- ---------------------------------------- ----------

1900010              CMPQCVUBXSMBCMI                               17296

1900011              QDPNUNBDXBKV                                  17393

1900012              OYQBIBRADGE                                   12009

1900013              VIRWDAKEE                                     18760

1900014              NQJYHGKREUKGENWH                              28990

1900015              IKUUFL                                         7899

1900016              ACQDSR                                         1195

1900017              NXIECMAVNE                                     4208

已选择19行。

连190001都混迹其中，这不应该是符合两个SQL意图的记录。

所以，这是不同SQL在比较性能，这有意义吗？

作者一开头就出这么一个让人费解的地方,或是有些细节没有明写在书里，引起读者疑惑，有点不应该。

--2020年1月31日--

对韩峰著《SQL优化最佳实践》P7 案例的质疑的更多相关文章

sql优化最佳实践
1.选择最有效率的表连接顺序首先要明白一点就是SQL 的语法顺序和执行顺序是不一致的 SQL的语法顺序: select [distinct] ....from ....[xxx join][o ...
SQL Server - 最佳实践 - 参数嗅探问题转。
文章来自:https://yq.aliyun.com/articles/61767 先说我的问题,最近某个存储过程,暂定名字:sp_a 总是执行超时,sp_a带有一个参数,暂定名为 para1 var ...
一触即发 App启动优化最佳实践
一触即发 App启动优化最佳实践本文在 DiyCode 和 CSDN个人博客同时首发,关注作者的 DiyCode帐号或者作者微博可第一时间收到新文章推送. 文中的很多图都是Google性能优 ...
Web前端优化最佳实践及工具集锦
Web前端优化最佳实践及工具集锦发表于2013-09-23 19:47| 21315次阅读| 来源Googe & Yahoo| 118 条评论| 作者王果编译 Web优化Google雅虎P ...
paip.前端加载时间分析之道优化最佳实践
paip.前端加载时间分析之道优化最佳实践 1.另存为 ,查看文件尺寸..和图片. 2.view the 另存为的htm静态的文件单个的加载,看时间...可以排除编程语言的问题and 数据库.. ## ...
【读书笔记】读《高性能网站建设指南》及《高性能网站建设进阶指南：Web开发者性能优化最佳实践》
这两本书就一块儿搞了,大多数已经理解,简单做个标记.主要对自己不太了解的地方,做一些记录. 一.读<高性能网站建设指南> 0> 黄金性能法则:只有10%~20%的最终用户响应时间 ...
[转] Web 前端优化最佳实践之 Mobile(iPhone) 篇
原文链接:http://dbanotes.net/web/best_practices_for_speeding_up_your_web_site_server_mobile.html Web 前端优 ...
经典的性能优化最佳实践 web性能权威指南读书笔记
web性能权威指南 page 203 经典的性能优化最佳实践无论什么网络,也不管所用网络协议是什么版本,所有应用都应该致力于消除或减少不必要的网络延迟,将需要传输的数据压缩至最少.这两条标准是经典 ...
史上最全存储引擎、索引使用及SQL优化的实践
史上最全存储引擎.索引使用及SQL优化的实践 1 MySQL的体系结构概述 2. 存储引擎 2.1 存储引擎概述 2.2 各种存储引擎特性 2.2.1 InnoDB 2.2.2 MyISAM 3. 优 ...

随机推荐

SpringCloud Sidecar 整合.Net WebApi
在整合.Net的过程中遇到不少问题,一般网上的例子只是调用一个简单的NodeJS示例,并未有详细的介绍及采坑过程. 首先,我的项目结构是:Vue前端 + SpringCloud后端 + .Net的We ...
Python中json.dump与repr的区别
Json是一种轻量级的数据交换格式,Python3 中可以使用 json 模块来对 JSON 数据进行编解码,它包含了两个函数: 引入json包: import json json.dumps(): ...
C#LeetCode刷题之#643-子数组最大平均数 I（ Maximum Average Subarray I）
问题该文章的最新版本已迁移至个人博客[比特飞],单击链接 https://www.byteflying.com/archives/3728 访问. 给定 n 个整数,找出平均数最大且长度为 k 的连 ...
Homekit_二路继电器
介绍一款二路继电器,使用Homekit进行控制,有兴趣的可以去以下链接看看: https://item.taobao.com/item.htm?spm=a1z10.1-c.w4004-11265006 ...
Oracle数据库启动及状态等查询
一.监听 1)启动监听: lsnrctl start 2)查看监听状态: lsnrctl status 3)停止监听: lsnrctl stop 4)检查是否可进行网络连接: tnsping ${si ...
已废弃_CSDN慕零的黑夜-头条-第一期(必问)[导读:]1.CSDN必问赏金流向何方 2.CSDN必问偷偷做的手脚 3.CSDN必问靠谱吗 4.关于钱于回答的平衡问题:一美元拍卖骗局qq3461896724
[本文有已知的链接差错,懒得改了] 本期是关于CSDN 必问 (biwen.csdn.net)的内容,欢迎评论文末,文中插入有小姐姐 img(附py代码,1.49G) + coding资料哟~~~ ...
深入源码理解Spark RDD的数据分区原理
通过内存创建RDD的分区设置 1.示例代码在创建RDD的时候,我们可以从内存中进行创建:输出保存为文件.为了演示效果,我们的示例代码如下: import org.apache.spark.{Spar ...
java基础-03：注释
1.注释的意义: (1) 为了更好的阅读自己编写的代码,方便日后代码维护,建议添加注释. (2) 有利于团队协作. (3) 代码即文档.程序源代码是程序文档的重要组成部分. 2.注释分类 (1) 单行 ...
python基础 Day7
python Day7 基础数据类型的补充 str的数据类型补充 capitalize函数将首字母大写,其余变小写 s1="taibei" print(s1.capitalize( ...
Could not create an acl object: Role '16'
解决方案: (1) 用rm命令一个一个的清除var/cache, var/page_cache, var/di, generated/文件夹下的所有文件 (2) run setup:upgradeco ...

对韩峰著《SQL优化最佳实践》P7 案例的质疑

对韩峰著《SQL优化最佳实践》P7 案例的质疑的更多相关文章

随机推荐

热门专题