【转载】[ORACLE]详解not in与not exists的区别与用法

在网上搜了下关于oracle中not exists和not in性能的比较，发现没有描述的太全面的，可能是问题太简单了，达人们都不屑于解释吧。于是自己花了点时间，试图把这个问题简单描述清楚，其实归根结底一句话：not in性能并不比not exists差，关键看你用的是否正确。

我先建两个示范表，便于说明：

create table ljn_test1 (col number);

create table ljn_test2 (col number);

然后插入一些数据：

insert into ljn_test1

select level from dual connect by level <=30000;

insert into ljn_test2

select level+1 from dual connect by level <=30000;

commit;

然后来分别看一下使用not exists和not in的性能差异：

select * from ljn_test1 where not exists (select 1 from ljn_test2 where ljn_test1.col = ljn_test2.col);

COL

----------

Elapsed: 00:00:00.06

select * from ljn_test1 where col not in (select col from ljn_test2);

COL

----------

Elapsed: 00:00:21.28

可以看到，使用not exists需要0.06秒，而使用not in需要21秒，差了3个数量级！为什么呢？其实答案很简答，以上两个SQL其实并不是等价的。

我把以上两个表的数据清除掉，重新插入数据：

truncate table ljn_test1;

truncate table ljn_test2;

insert into ljn_test1 values(1);

insert into ljn_test1 values(2);

insert into ljn_test1 values(3);

insert into ljn_test2 values(2);

insert into ljn_test2 values(null);

commit;

然后再次执行两个SQL：

select * from ljn_test1 where not exists (select 1 from ljn_test2 where ljn_test1.col = ljn_test2.col);

COL

----------

select * from ljn_test1 where col not in (select col from ljn_test2);

no rows selected

这回not in的原形暴露了，竟然得到的是空集。来仔细分解一下原因：

A. select * from ljn_test1 where col not in (select col from ljn_test2);

A在这个例子中可以转化为下面的B：

B. select * from ljn_test1 where col not in (2,null);

B可以进一步转化为下面的C：

C. select * from ljn_test1 where col <> 2 and col <> null;

因为col <> null是一个永假式，所以最终查出的结果肯定也就是空了。

由此可以得出结论：只要not in的子查询中包含空值，那么最终的结果就为空！

not exists语句不会出现这种情况，因为not exists子句中写的是ljn_test1与ljn_test2的关联，null是不参与等值关联的，所以ljn_test2的col存在空值对最终的查询结果没有任何影响。

我在这里暂且把ljn_test1叫做外表，ljn_test2叫做内表。

只要稍做归纳，就可以得到更详细的结论：

1、对于not exists查询，内表存在空值对查询结果没有影响；对于not in查询，内表存在空值将导致最终的查询结果为空。

2、对于not exists查询，外表存在空值，存在空值的那条记录最终会输出；对于not in查询，外表存在空值，存在空值的那条记录最终将被过滤，其他数据不受影响。

讲到这里，我就可以开始解释为什么上面的not in语句比not exists语句效率差这么多了。

not exists语句很显然就是一个简单的两表关联，内表与外表中存在空值本身就不参与关联，在CBO(基于成本的优化器)中常用的执行计划是hash join，所以它的效率完全没有问题，看一下它的执行计划：

set autot on;

select * from ljn_test1 where not exists (select 1 from ljn_test2 where ljn_test1.col = ljn_test2.col);

COL

----------

Elapsed: 00:00:00.01

Execution Plan

----------------------------------------------------------

Plan hash value: 385135874

--------------------------------------------------------------------------------

--------------------------------------------------------------------------------

| 0 | SELECT STATEMENT | | 3 | 78 | 7 (15)| 00:00:01 |

|* 1 | HASH JOIN ANTI | | 3 | 78 | 7 (15)| 00:00:01 |

| 2 | TABLE ACCESS FULL| LJN_TEST1 | 3 | 39 | 3 (0)| 00:00:01 |

| 3 | TABLE ACCESS FULL| LJN_TEST2 | 2 | 26 | 3 (0)| 00:00:01 |

--------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

1 - access("LJN_TEST1"."COL"="LJN_TEST2"."COL")

这个执行计划很清晰，没有什么需要解释的，再看一下not in:

select * from ljn_test1 where col not in (select col from ljn_test2);

no rows selected

Elapsed: 00:00:00.01

Execution Plan

----------------------------------------------------------

Plan hash value: 3267714838

--------------------------------------------------------------------------------

--------------------------------------------------------------------------------

| 0 | SELECT STATEMENT | | 1 | 13 | 5 (0)| 00:00:01 |

|* 1 | FILTER | | | | | |

| 2 | TABLE ACCESS FULL| LJN_TEST1 | 3 | 39 | 3 (0)| 00:00:01 |

|* 3 | TABLE ACCESS FULL| LJN_TEST2 | 2 | 26 | 2 (0)| 00:00:01 |

--------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

1 - filter( NOT EXISTS (SELECT 0 FROM "LJN_TEST2" "LJN_TEST2"

WHERE LNNVL("COL"<>:B1)))

3 - filter(LNNVL("COL"<>:B1))

可以看到关联谓词是filter，它类似于两表关联中的nested loop，也就是跑两层循环，可见它的效率有多差。为什么not in不能使用hash join作为执行计划呢？正如上面解释的，因为内表或外表中存在空值对最终结果产生的影响是hash join无法实现的，因为hash join不支持把空值放到hash桶中，所以它没办法处理外表和内表中存在的空值，效率与正确性放在一起时，肯定是要选择正确性，所以oracle必须放弃效率，保证正确性，采用filter谓词。

这个执行计划中我们还有感兴趣的东西，那就是：LNNVL("COL"<>:B1)，关于LNNVL的解释可以参见官方文档：http://download.oracle.com/docs/cd/B19306_01/server.102/b14200/functions078.htm

它在这里的作用很巧妙，oracle知道使用filter性能很差，所以它在扫描内表ljn_test2时，会使用LNNVL来检查ljn_test2.col是否存在null值，只要扫描到null值，就可以断定最终的结果为空值，也就没有了继续执行的意义，所以oracle可以马上终止执行，在某种意义上它弥补了filter较差的性能。

我用例子来证明这一点，首先先造一些数据：

truncate table ljn_test1;

truncate table ljn_test2;

insert into ljn_test1

select level from dual connect by level <=30000;

insert into ljn_test2

select level+1 from dual connect by level <=30000;

commit;

然后我为了让oracle尽快扫描到ljn_test2.col为null的那条记录，我要先找到物理地址最小的那条记录，因为通常情况全表扫描会先扫描物理地址最小的那条记录：

select col from ljn_test2 where rowid=(select min(rowid) from ljn_test2);

COL

----------

1982

然后我把这条记录更新为空：

update ljn_test2 set col = null where col=1982;

commit;

然后再来看一下not in的查询效率：

select * from ljn_test1 where col not in (select col from ljn_test2);

no rows selected

Elapsed: 00:00:00.17

看到这个结果后我很爽，它和之前查询需要用时21秒有很大的差别！

当然，我们不能总是指望oracle扫描表时总是最先找到null值，看下面的例子：

update ljn_test2 set col = 1982 where col is null;

select col from ljn_test2 where rowid=(select max(rowid) from ljn_test2);

COL

----------

30001

update ljn_test2 set col = null where col=30001;

commit;

再看一下not in的查询效率：

select * from ljn_test1 where col not in (select col from ljn_test2);

COL

----------

Elapsed: 00:00:21.11

这一下not in再一次原形毕露了！

机会主义不行，更杯具的是如果内表中没有空值，那LNNVL优化就永远起不到作用，相反它还会增大开销！

其实只要找到原因，问题很好解决，不就是空值在作怪嘛！在正常的逻辑下用户本来就是想得到和not exists等价的查询结果，所以只要让oracle知道我们不需要空值参与进来就可以了。

第一种解决方案：

将内表与外表的关联字段设定为非空的：

alter table ljn_test1 modify col not null;

alter table ljn_test2 modify col not null;

好了，再看一下执行计划：

set autot on;

select * from ljn_test1 where col not in (select col from ljn_test2);

COL

----------

Elapsed: 00:00:00.07

Execution Plan

----------------------------------------------------------

Plan hash value: 385135874

--------------------------------------------------------------------------------

--------------------------------------------------------------------------------

| 0 | SELECT STATEMENT | | 1 | 26 | 28 (8)| 00:00:01 |

|* 1 | HASH JOIN ANTI | | 1 | 26 | 28 (8)| 00:00:01 |

| 2 | TABLE ACCESS FULL| LJN_TEST1 | 30000 | 380K| 13 (0)| 00:00:01 |

| 3 | TABLE ACCESS FULL| LJN_TEST2 | 30000 | 380K| 13 (0)| 00:00:01 |

--------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

1 - access("COL"="COL")

很好！这回oracle已经知道使用hash join了！不过有时候表中需要存储空值，这时候就不能在表结构上指定非空了，那也同样简单：

第二种解决方案：

查询时在内表与外表中过滤空值。

先把表结构恢复为允许空值的：

alter table ljn_test1 modify col null;

alter table ljn_test2 modify col null;

然后改造查询：

select * from ljn_test1 where col is not null and col not in (select col from ljn_test2 where col is not null);

COL

----------

Elapsed: 00:00:00.07

Execution Plan

----------------------------------------------------------

Plan hash value: 385135874

--------------------------------------------------------------------------------

--------------------------------------------------------------------------------

| 0 | SELECT STATEMENT | | 1 | 26 | 28 (8)| 00:00:01 |

|* 1 | HASH JOIN ANTI | | 1 | 26 | 28 (8)| 00:00:01 |

|* 2 | TABLE ACCESS FULL| LJN_TEST1 | 30000 | 380K| 13 (0)| 00:00:01 |

|* 3 | TABLE ACCESS FULL| LJN_TEST2 | 30000 | 380K| 13 (0)| 00:00:01 |

--------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

1 - access("COL"="COL")

2 - filter("COL" IS NOT NULL)

3 - filter("COL" IS NOT NULL)

OK! hash join出来了！我想我关于not exists与not in之间的比较也该结束了。

【转载】[ORACLE]详解not in与not exists的区别与用法的更多相关文章

【转载】详解 $_SERVER 函数中QUERY_STRING和REQUEST_URI区别
实例:1,http://localhost/aaa/ (打开aaa中的index.php)结果:$_SERVER['QUERY_STRING'] = "";$_SERVER['RE ...
[转载]Pytorch详解NLLLoss和CrossEntropyLoss
[转载]Pytorch详解NLLLoss和CrossEntropyLoss 来源:https://blog.csdn.net/qq_22210253/article/details/85229988 ...
HTTP详解(3)-http1.0 和http1.1 区别
HTTP详解(3)-http1.0 和http1.1 区别分类: 网络知识2013-03-17 16:51 1685人阅读评论(0) 收藏举报目录(?)[+] 翻了下HTTP1.1的协 ...
详解 $_SERVER 函数中QUERY_STRING和REQUEST_URI区别
详解 $_SERVER 函数中QUERY_STRING和REQUEST_URI区别 http://blog.sina.com.cn/s/blog_686999de0100jgda.html 实例: ...
python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题
python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题一丶爬虫概述通过编写程序'模拟浏览器'上网,然后通 ...
（转载）详解网络传输中的三张表，MAC地址表、ARP缓存表以及路由表
郑重声明:原文转载于http://dengqi.blog.51cto.com/5685776/1223132 向好文章致敬!!! 一:MAC地址表详解说到MAC地址表,就不得不说一下交换机的工作原理 ...
转载+++++iptables详解+++++转载
转载:http://blog.chinaunix.net/uid-26495963-id-3279216.html 一.前言防火墙,其实说白了讲,就是用于实现Linux下访问控制的功能的,它分为硬件 ...
【转载】详解CreateProcess调用内核创建进程的过程
原文:详解CreateProcess调用内核创建进程的过程昨天同学接到了腾讯的电面,有一题问到了CreateProcess创建进程的具体实现过程,他答得不怎么好吧应该是, 为了以防万一,也为了深入学 ...
[转载]python 详解re模块
原文地址:python 详解re模块作者:Rocky 正则表达式的元字符有. ^ $ * ? { [ ] | ( ) ．表示任意字符［］用来匹配一个指定的字符类别,所谓的字符类别就是你想匹配的一个字 ...

随机推荐

Cookie、session和localStorage、以及sessionStorage之间的区别
一.Cookie.session和localStorage的区别 cookie的内容主要包括:名字.值.过期时间.路径和域.路径与域一起构成cookie的作用范围.若不设置时间,则表示这个cookie ...
HTML标签的命名/CSS标准化命名大全
在一个内容较多的HTML页面中,需要设计许多不同的框架,再为这些不同的框架及内容进行分类,给予相应的名称,从而使得网页结构更加清晰,也为工作提供了方便.许多新手朋友在设计一个HTML文件时,可能只会依 ...
Markdown 安装图解(破解汉化教程)
http://blog.csdn.net/taokai_110/article/details/72934818 终于解决了问题
【算法】哈希表的诞生（Java）
参考资料 <算法(java)> — — Robert Sedgewick, Kevin Wayne <数据结构> ...
python学习：简单的wc命令实现
#!/usr/bin/python import sys import os try: fn = sys.argv[1] except IndexError: print &q ...
Node.js 基础介绍（一）
Node.js 学习笔记一) 简单介绍--名称 Node.js,平时听到有好几种叫法,node .Node.js.nodejs ,但是比较正式的称呼还是"Node.js",由于它是 ...
centos ELK安装
本文来自我的github pages博客http://galengao.github.io/ 即www.gaohuirong.cn ELK是进行日志收集分析用的,具体工作.原理.作用自行google. ...
【JavaWeb】权限管理系统
前言前面我们做的小项目都是一个表的,业务代码也相对简单.现在我们来做一个权限管理系统,体验一下多表的业务逻辑,顺便巩固一下过滤器的知识.! 目的现在我有一个管理商品.订单的页面.当用户点击某个超链 ...
mac清除某个端口的占用
lsof -i:8080查找某个应用的pid kill pid就可以了
PHP结合Redis来限制用户或者IP某个时间段内访问的次数
$redis = new Redis(); $redis->connect('127.0.0.1', 6379); //获取客户端真实ip地址 function get_real_ip(){ s ...

【转载】[ORACLE]详解not in与not exists的区别与用法

【转载】[ORACLE]详解not in与not exists的区别与用法的更多相关文章

随机推荐

热门专题