select in 在postgresql的效率问题

在知乎上看到这样一个问题：

MySQL 查询 select * from table where id in (几百或几千个 id) 如何提高效率？修改

电商网站，一个商品属性表，几十万条记录，80M，索引只有主键id，做这样的查询如何提高效率？
select * from table where id in (几百或几千个id)
这些id没啥规律，分散的。。。。

看了一下答案，感觉有好多不靠谱的，但是口说无凭，所以在我的电脑上写了几个查询测试一下。我用的是Postgresql9.4，但感觉mysql应该也差不多，首先创建一个简单表，只有简单的3列，在这个问题的下面好多人提到了需要看表的大小，其实这个问题和表大小无关，只和index的大小有关，因为是index是建立在int上的，所以只和纪录数目有关。

 Table "public.t9"

 Column |      Type      | Modifiers

--------+----------------+-----------

 c1     | integer        |

 c2     | character(100) |

 c3     | character(200) |

Indexes:

    "i1" UNIQUE, btree (c1)

insert into t9 values(generate_series(1000,500000,1),repeat('a',90),repeat('b',180));

之后生成一些随机数，Mac上用jot，Linux上用shuf

for ((i=;i<;i++))

do

jot -r    >>rand.file

done

然后根据rand.file 生成查询语句：

select * from t9 where c1 in (

494613,

575087,

363588,

527650,

251670,

343456,

426858,

202886,

254037,

...

1

);

分别生成3个sql文件，in内变量的数目分别是100，1000和10000个，执行这3个sql文件，看看时间

➜  try psql study -f test_100.sql -o /dev/null

LOG:  duration: 2.879 ms

➜  try psql study -f test_1000.sql -o /dev/null

LOG:  duration: 11.974 ms

➜  try psql study -f test_10000.sql -o /dev/null

LOG:  duration: 355.689 ms

可以看到只有在in内数据到了10，000个的时候数据时间会有比较大的变化，但也不过是在300多ms内完成。

那如果按照有些回答那样，先建一个临时表，然后用in subquery，并且希望这时候可以两表join呢？为了简单我直接用两表join了

drop table t_tmp;

create table t_tmp(id int);

insert into t_tmp (id) values

(494613),

(575087),

(363588),

(345980),
...

(1)
;

select t9.* from t9, t_tmp

where t9.c1 = t_tmp.id;

时间如何呢？

try psql study -f test_create_10000.sql -o /dev/null

LOG:  duration: 2.078 ms

LOG:  duration: 1.233 ms

LOG:  duration: 224.112 ms

LOG:  duration: 322.108 ms

除去drop和create的时间，依然花费了500+的时间，这里的前提还是我用的ssd盘，所以写LOG的时间会快很多。为什么会这么慢呢？用explain看一下，这时候数据量较大，直接走Merge join 了

那1000行数据的效率如何呢？

try psql study -f test_create_1000.sql -o exp.out

LOG:  duration: 2.476 ms

LOG:  duration: 0.967 ms

LOG:  duration: 2.391 ms

LOG:  duration: 8.780 ms

100行的数据如下：

➜  try psql study -f test_create_100.sql -o /dev/null

LOG:  duration: 2.020 ms

LOG:  duration: 1.028 ms

LOG:  duration: 1.074 ms

LOG:  duration: 1.912 ms

可以看到在100个值和1000个值的情况下create table的方式不会比直接在in里面写所有的变量好多少，explain看的话是在用NLJ了。但在数据量更大（按照原问题，这里in的数量其实无法预知）的情况下效率只会更低，再加上额外的表维护成本和多余的SQL语句，DBA肯定不喜欢的，还是相信数据库，放心大胆直接用in list来搞定这些问题吧。

select in 在postgresql的效率问题的更多相关文章

关于取表中id最大值+1的select语句，哪种效率更高？
需求:取stock表中id最大值+1,作为下一个id值. 特殊情况:考虑到表中会没有值,max(id)会返回空,因此需要用case when进行判断. 实现一:select (case max(id) ...
Sql获取表所有列名字段——select * 替换写法，Sqlserver、Oracle、PostgreSQL、Mysql
实际开发中经常用到select * from table,往往需要知道具体的字段,这个时候再去数据库中翻或者查看数据字典比较麻烦.为了方便,自己特意写了一个小函数f_selectall,针对SqlSe ...
如何提高SELECT的效率
首先避免使用in ,not in,<>,<,<=,>,>=,is null,is not null 主要搜索字段建立索引 .WHERE子句中的连接顺序 sql解 ...
Citus 分布式 PostgreSQL 集群 - SQL Reference(查询分布式表 SQL)
如前几节所述,Citus 是一个扩展,它扩展了最新的 PostgreSQL 以进行分布式执行.这意味着您可以在 Citus 协调器上使用标准 PostgreSQL SELECT 查询进行查询. Cit ...
postgresql 基本语法
postgresql数据库创建/修改/删除等写入类代码语法总结: 1,创建库 2,创建/删除表 2.1 创建表 create table myTableName 2.2 如果表不存在则创建表 crea ...
postgreSQL使用
1.1. 安装自然,在你想开始使用 PostgreSQL 之前, 你必须安装它．PostgreSQL 很有可能已经安装到你的节点上了,因为它包含在你的操作系统的发布里, 或者是系统管理员已 ...
SELECT的解析顺序及慢查询优化
标准的 SQL 的解析顺序为:(1)FROM 子句, 组装来自不同数据源的数据(2)WHERE 子句, 基于指定的条件对记录进行筛选(3)GROUP BY 子句, 将数据划分为多个分组(4)使用聚合函 ...
PostgreSQL 一主两备节点（两备节点为同步节点）故障恢复
PostgreSQL 同步复制及故障恢复 10.2.208.10:node1:master 10.2.208.11:node2:standby1 同步 10.2.208.12:node3:stand ...
PostgreSQL Cascade Replication
PostgreSQL Cascade Replication node1:master:10.2.208.10:repclia(user) node2:upstreamnode:10.2.208.11 ...

随机推荐

【转载】Linux 信号列表
转自:http://blog.csdn.net/muge0913/article/details/7322710 信号及其简介信号是一种进程通信的方法,他应用于异步事件的处理.信号的实现是一种软中断 ...
Win 10 文件浏览器无法打开
今天遇到个很奇怪的问题,文件浏览器File Explorer无法正常显示,点击打开后任务栏上已经显示打开了,但是屏幕上却看不到任何窗口,开始以为机子中了恶意的木马,然后就疯狂的查毒,然而并没有解决问题 ...
ZK 最少限度加载页面js文件
官方文档说明: ZK Developer's Reference文档,章节为Minimize Number of JavaScript Files to Load,按照文档步骤执行,最后需在 web. ...
Javascript初学篇章_1（概念/数据类型）
Javascript是一门脚本语言,主要由浏览器来执行.它可以说是页面的灵魂,让页面活过来.与之前学的HTML5+CSS样式的不同之处就在于,JS能让静态网页成为一个动态网页,实现与用户的互动. Ja ...
SQL日期相关的操作
DECLARE @dt datetime SET @dt=GETDATE() DECLARE @number int --1．指定日期该年的第一天或最后一天 --A. 年的第一天 ),)+'1-1' ...
html文本的基本设置
一.字体属性: 选择字体:font-family:value,value....指定字体的显示,按照顺序直到能够匹配字体的大小:font-size:39px: 字体加粗:font-weight:bo ...
ajax 通用方法，从thinkphp中拔出来的
<?php /** * 设置页面输出的CONTENT_TYPE和编码 * @access public * @param string $type content_type 类型对应的扩展名 * ...
python2.x与3.x差别
数字常量: 八进制十六进制二进制 2:0177 0o177 0x9ff 0b101010 3:0o177 0x9ff 0b101010 多种字符串: 2:一般字符串,Unicode字符串 3: ...
Linux Vsftpd 连接超时解决方法（被动模式）
http://blog.csdn.net/qq_15766181/article/details/46554643 使用 FileZilla FTP Client 连接 Vsftpd FTP,在没有配 ...
MyBatis学习总结(二)——使用MyBatis对表执行CRUD操作（转载）
本文转载自:http://www.cnblogs.com/jpf-java/p/6013540.html 上一篇博文MyBatis学习总结(一)--MyBatis快速入门中我们讲了如何使用Mybati ...

select in 在postgresql的效率问题

MySQL 查询 select * from table where id in (几百或几千个 id) 如何提高效率？修改

select in 在postgresql的效率问题的更多相关文章

随机推荐

热门专题