PostgreSQL SQL优化之NOT IN问题

在我们平时写SQL时，如果遇到需要排除某些数据时，往往使用id <> xxx and id <> xxx，进而改进为id not in (xxx, xxx);

这样写没有问题，而且简化了SQL，但是往往有些极端情况，使用not in就会造成极大的性能损耗，例如：

select * from test where id not in (select id from test_back) and info like '%test%';

这样的话select id from test_back将成为一个子查询，而且不会走索引，每次走一遍全表扫描。

每一条满足info like '%test%'的记录都会去调用这个方法去判断id是否不在子查询中，具体的执行计划见下面的例子。

改进方法：

1）使用test和test_back进行联合查询，id <> id明显是不行的，这样只会判断同一关联条件下的一行中的id是否相同，无法做到排除某些id。

2）正确的方式应该使用not exists，将条件下推到里面，就不会出现子查询了：

select * from test t1 where info like '%test%' and not exits (select 1 from test_back t2 where t2.id = t1.id);

apple=# \d test

                Table "public.test"

 Column |  Type   | Collation | Nullable | Default

--------+---------+-----------+----------+---------

 id     | integer |           | not null |

 info   | text    |           |          |

Indexes:

    "test_pkey" PRIMARY KEY, btree (id)

apple=# truncate test;

TRUNCATE TABLE

apple=# insert into test select generate_series(1, 100), 'test'||round(random()*10000)::text;

INSERT 0 100

apple=# select * from test limit 1;

 id |   info

----+----------

  1 | test9526

(1 row)

apple=# insert into test select generate_series(101, 200), 'tes'||round(random()*10000)::text;

INSERT 0 100

apple=# create table test_back as  select * from test where id between 50 and 70;

SELECT 21

apple=# explain select * from test where id not in (select id from test_back) and info like '%test%';

                             QUERY PLAN

---------------------------------------------------------------------

 Seq Scan on test  (cost=25.88..30.88 rows=49 width=12)

   Filter: ((NOT (hashed SubPlan 1)) AND (info ~~ '%test%'::text))

   SubPlan 1

     ->  Seq Scan on test_back  (cost=0.00..22.70 rows=1270 width=4)

(4 rows)

apple=# explain select * from test t1 where info like '%test%' and not exists (select 1 from test_back t2 where t2.id = t1.id);

                               QUERY PLAN

-------------------------------------------------------------------------

 Hash Anti Join  (cost=1.47..7.13 rows=89 width=12)

   Hash Cond: (t1.id = t2.id)

   ->  Seq Scan on test t1  (cost=0.00..4.50 rows=99 width=12)

         Filter: (info ~~ '%test%'::text)

   ->  Hash  (cost=1.21..1.21 rows=21 width=4)

         ->  Seq Scan on test_back t2  (cost=0.00..1.21 rows=21 width=4)

(6 rows)

例子里面没有建索引，建索引后，这种优化方式效果更好。

那么进一步扩展来说：

1）!= 不是标准的SQL，<>才是，这两个在PostgreSQL中是等效的。

2）exits和not exits的意思是逐条将条件下放到判断条件，而jion方式是先对表进行笛卡尔积，然后判断同行之间的各列值是否满足关系。

PostgreSQL SQL优化之NOT IN问题的更多相关文章

SQL优化技巧
我们开发的大部分软件,其基本业务流程都是:采集数据→将数据存储到数据库中→根据业务需求查询相应数据→对数据进行处理→传给前台展示.对整个流程进行分析,可以发现软件大部分的操作时间消耗都花在了数据库相关 ...
《高性能SQL调优精要与案例解析》一书谈主流关系库SQL调优（SQL TUNING或SQL优化）核心机制之——索引（index）
继<高性能SQL调优精要与案例解析>一书谈SQL调优(SQL TUNING或SQL优化),我们今天就谈谈各主流关系库中,占据SQL调优技术和工作半壁江山的.最重要的核心机制之一——索引(i ...
SQL优化案例—— RowNumber分页
将业务语句翻译成SQL语句不仅是一门技术,还是一门艺术. 下面拿我们程序开发工程师最常用的ROW_NUMBER()分页作为一个典型案例来说明. 先来看看我们最常见的分页的样子: WITH CTE AS ...
sql 优化
1.选择最有效率的表名顺序(只在基于规则的优化器中有效): oracle的解析器按照从右到左的顺序处理 from 子句中的表名,from子句中写在最后的表(基础表driving table)将被最先处 ...
SQL 优化总结
SQL 优化总结 (一)SQL Server 关键的内置表.视图 1. sysobjects SELECT name as '函数名称',xtype as XType FROM s ...
(转)SQL 优化原则
一.问题的提出在应用系统开发初期,由于开发数据库数据比较少,对于查询SQL语句,复杂视图的的编写等体会不出SQL语句各种写法的性能优劣,但是如果将应用系统提交实际应用后,随着数据库中数据的增加,系 ...
sql优化阶段性总结以及反思
Sql优化思路阶段性心得: 这段时间的优化做了好几个案例,其实有很多的类似点,都是好几张大表的相互连接,然后执行长达好几个小时,甚至都跑不出来. 自己差不多的思路就是Parallel full tab ...
mysql sql优化实例
mysql sql优化实例优化前: pt-query-degist分析结果: # Query 3: 0.00 QPS, 0.00x concurrency, ID 0xDC6E62FA021C85B ...
ORACLE常用SQL优化hint语句
在SQL语句优化过程中,我们经常会用到hint,现总结一下在SQL优化过程中常见Oracle HINT的用法: 1. /*+ALL_ROWS*/ 表明对语句块选择基于开销的优化方法,并获得最佳吞吐量, ...

随机推荐

判断一个ip地址合法性（基础c，不用库函数）
#include <stdio.h> int judge(char *strIp); int main() { ]; ) { scanf("%s", a); == ju ...
关于lower_bound()和upper_bound()
关于lower_bound()和upper_bound(): 参考:关于lower_bound( )和upper_bound( )的常见用法注意:查找的数组必须要是排好序的.因为,它们查找的方式也是 ...
十七、mysql数据库备份
使用java代码在window环境下实现定时执行Mysql备份与还原 //备份 public void doBackup() { Date currentTime = new Date(); Syst ...
Riot.js——一个小而美的JS框架
Riot.js是什么? Riot 拥有创建现代客户端应用的所有必需的成分: "响应式" 视图层用来创建用户界面用来在各独立模块之间进行通信的事件库用来管理URL和浏览器回退按钮 ...
rabbitmq访问控制试坑篇
访问控制我理解就是两层,第一层是Virtual host,相当于一个个独立主机第二层是这个permissions,对照下图权限表权限表(重要!) 需求 configgure write read ...
Java——重写hashCode()和euqals()方法
1.顺序表的问题查找和去重效率较低对于这样的顺序表来说,如果需要查找元素,就需要从第一个元素逐个检查,进行查找.对于需要去重的存储来说,每次存入一个元素之前,就得将列表中的每个元素都比对一遍,效率 ...
MySQL5.7快速修改表中字段长度
在mysql 5.5版本时,商用环境升级,有一个表存在六千多万数据,升级时需要修改这个表其中一个varchar类型字段的长度,当时用了大概4个多小时,还没有结束,之后我们系统mysql升级到5.7版本 ...
阶段3 3.SpringMVC·_05.文件上传_4 文件上传之Springmvc方式上传代码
后台提供新的方法,上传的方法复制一份传统上传的代码.改名为fileupload2 配置解析器名字必须叫做myltipartResolver 里面可以配置一些属性,例如上传文件的大小等. 文件大小最 ...
pagehelper用法
spring boot 和 mybatis 中使用 pagehelper: 1. 在pom.xml 中加入pagehelper的引用: <dependency> <groupId&g ...
Django使用消息提示简单的弹出个对话框
1.下面就来介绍一下如何简单的显示一个消息提示,好像js可以控制,不过这里用了django.contrib.messages这个库 2.首先呢,在项目的settings.py有默认配置一个django ...

PostgreSQL SQL优化之NOT IN问题

PostgreSQL SQL优化之NOT IN问题的更多相关文章

随机推荐

热门专题