pg distinct 改写递归优化（德哥的思路）

德哥的优化思路巨牛逼，这种递归思维真的太吊了，我目前就缺递归思路。

下面SQL1000W行数据，列的选择性很低，只有两个值（'1'和'11'）都是字符串类型，'1'只有一条数据，'11'有9999999行数据。

慢SQL：

select distinct col from tt;

                                                      QUERY PLAN

----------------------------------------------------------------------------------------------------------------------

 HashAggregate  (cost=169247.11..169247.12 rows=1 width=3) (actual time=5082.733..5082.735 rows=2 loops=1)

   Group Key: col

   ->  Seq Scan on tt  (cost=0.00..144247.29 rows=9999929 width=3) (actual time=0.005..275.906 rows=10000000 loops=1)

 Planning Time: 0.365 ms

 Execution Time: 5082.772 ms

(5 行记录)

CTE递归优化：

WITH RECURSIVE t AS (

   (SELECT col FROM tt ORDER BY col LIMIT 1)

   UNION ALL

   SELECT (SELECT col FROM tt WHERE col > t.col ORDER BY col LIMIT 1)

   FROM t

   WHERE t.col IS NOT NULL

   )

SELECT col FROM t WHERE col IS NOT NULL;

                                                                        QUERY PLAN

----------------------------------------------------------------------------------------------------------------------------------------------------------

 CTE Scan on t  (cost=50.84..52.86 rows=100 width=38) (actual time=0.024..0.079 rows=2 loops=1)

   Filter: (col IS NOT NULL)

   Rows Removed by Filter: 1

   CTE t

     ->  Recursive Union  (cost=0.43..50.84 rows=101 width=38) (actual time=0.022..0.076 rows=3 loops=1)

           ->  Limit  (cost=0.43..0.46 rows=1 width=3) (actual time=0.021..0.021 rows=1 loops=1)

                 ->  Index Only Scan using idx_1_2_tt on tt tt_1  (cost=0.43..260443.37 rows=9999929 width=3) (actual time=0.020..0.020 rows=1 loops=1)

                       Heap Fetches: 0

           ->  WorkTable Scan on t t_1  (cost=0.00..4.84 rows=10 width=38) (actual time=0.017..0.017 rows=1 loops=3)

                 Filter: (col IS NOT NULL)

                 Rows Removed by Filter: 0

                 SubPlan 1

                   ->  Limit  (cost=0.43..0.46 rows=1 width=3) (actual time=0.024..0.024 rows=0 loops=2)

                         ->  Index Only Scan using idx_1_2_tt on tt  (cost=0.43..95149.36 rows=3333310 width=3) (actual time=0.024..0.024 rows=0 loops=2)

                               Index Cond: (col > (t_1.col)::text)

                               Heap Fetches: 0

 Planning Time: 0.096 ms

 Execution Time: 0.096 ms

(18 行记录)

里面的逻辑是：

(SELECT col FROM tt ORDER BY col LIMIT 1)

　　根节点通过order by 升序找到最小的一条数据作为起点。

递归查询:

SELECT (SELECT col FROM tt WHERE col > t.col ORDER BY col LIMIT 1)

FROM t

WHERE t.col IS NOT NULL

　　在第一次迭代中，CTE t 包含值'1'。这个查询将在tt表中寻找col大于'1'的最小值。在数据集中，这将是'11'。

　　在第二次迭代，CTE t 将包含'11'。此时，查询将尝试找到大于'11'的最小值，但没有这样的值，所以返回NULL。

递归结束:
　　当递归查询返回NULL时，递归结束。这时，CTE t 将包含'1'和'11'，返回和distinct 一样逻辑的数据。

理解了整个逻辑后我都吓尿了，就一道算法题，确实要跟巨佬学习才行，加深递归思维。

pg distinct 改写递归优化（德哥的思路）的更多相关文章

德哥的PostgreSQL私房菜 - 史上最屌PG资料合集
德哥的PostgreSQL私房菜 - 史上最屌PG资料合集
云栖专辑|阿里开发者们的第二个感悟：PG大V德哥的使命感与开放心态
摘要: 2018年12月20日,云栖社区3岁.阿里巴巴常说“晴天修屋顶”,所以我们特别制作了这个专辑——分享给开发者们20个阿里故事,50本书籍. 2015年12月20日,云栖社区上线.2018年12 ...
德哥PostgreSQL学习资料汇总(转)
文章来自:https://yq.aliyun.com/articles/59251?spm=5176.100239.bloglist.95.5S5P9S 德哥博客新地址:https://billtia ...
js递归优化
递归优化递归在我们平时撸码中会经常用到,不过可能很多人不知道递归的弊端,就是会导致调用栈越来越深.如果没有节制的使用递归可能会导致调用栈溢出. 那什么是递归呢? 递归调用是一种特殊的嵌套调用,是某个 ...
使用 CUDA 进行计算优化的两种思路
前言本文讨论如何使用 CUDA 对代码进行并行优化,并给出不同并行思路对均值滤波的实现. 并行优化的两种思路思路1: global 函数在 global 函数中创建出多个块多个线程对矩阵每个元素 ...
第七篇：使用 CUDA 进行计算优化的两种思路
前言本文讨论如何使用 CUDA 对代码进行并行优化,并给出不同并行思路对均值滤波的实现. 并行优化的两种思路思路1: global 函数在 global 函数中创建出多个块多个线程对矩阵每个元素 ...
[06] 优化C#服务器的思路和工具的使用
优化C#服务器的思路和工具的使用优化服务器之前, 需要先对问题的规模做合理的预估, 然后对关键的数据做采样, 做对比, 看和自己的预估是否一致, 误差大在什么地方, 是预估的不对, 还是系统实现有问 ...
[转]德哥的PostgreSQL私房菜 - 史上最屌PG资料合集
链接地址:https://yq.aliyun.com/articles/59251
【PostgreSQL】资料索引（来源：德哥）
PostgreSQL 多应用场景实践 - 沙箱实验 https://github.com/digoal/blog/blob/master/201805/20180524_02.md 一.GIS < ...
javascript memoization递归优化
memoize优化递归 function createRec(callback, cache) { cache = cache || []; var rec = function(n) { (n in ...

随机推荐

常见的WCF面试问题
WCF和ASMX WebService的区别是什么? 最基本的区别在于,ASMX或者ASP.NET WebService是用来通过基于HTTP的SOAP来实现通讯.但WCF可以使用任意协议(HTTP, ...
什么是IO？IO的本质？｜如何让IO变得高效？何为高效？｜异步IO｜多路转接｜reactor模式
前言那么这里博主先安利一些干货满满的专栏了! 首先是博主的高质量博客的汇总,这个专栏里面的博客,都是博主最最用心写的一部分,干货满满,希望对大家有帮助. 高质量干货博客汇总https://blog ...
linux统计文件大小-以KB、MB、GB、TB为单位
fileSize=`hadoop fs -ls /data/internetLog/home/DPI/idc/20180806/*201808062[0-2]* | awk 'BEGIN{ sum=0 ...
RAPTOR：递归摘要与树形检索的结合，提升RAG检索性能
RAPTOR:递归摘要与树形检索的结合,提升RAG检索性能来源:ICLR'24 https://arxiv.org/pdf/2401.18059.pdf 随着 LLM 技术的发展,RAG 的价值也来 ...
NC50614 取石子游戏 1
题目链接题目题目描述有一种有趣的游戏,玩法如下: 玩家:2人: 道具:N颗石子: 规则: 游戏双方轮流取石子:每人每次取走若干颗石子(最少取1颗,最多取K颗):石子取光,则游戏结束:最后取石子的 ...
PCIE分层结构
PCIe分层结构绝大多数的总线或者接口,都是采用分层实现的.PCIe也不例外,它的层次结构如下: PCIe定义了下三层(彩色部分):事务层(Transaction Layer),数据链路层(Data ...
nginx 剔除请求参数 $args 变量中任意指定参数之万金油
剔除任意指定参数配置只需要修改需要剔除的参数key(如:redirectUrl) #剔除$args中的redirectUrl 参数 server { listen 80; server_name w ...
Wireguard笔记(一) 节点安装配置和参数说明
目录 Wireguard笔记(一) 节点安装配置和参数说明 Wireguard笔记(二) 命令行操作 Wireguard笔记(三) lan-to-lan子网穿透和多网段并存简介虚拟子网软件,类似于 ...
Shiro实战1-介绍
什么是 Shiro 官网:http://shiro.apache.org/ shiro是一款主流的 Java 安全框架,不依赖任何容器,可以运行在 Java SE和 Java EE 项目中,它的主要作 ...
解决idea中使用git fetch报远程仓库Authentication failed
这个问题是项目组同事在从git服务器clone代码后做fetch操作老是报错: Authentication failed, 弹出框提示:invalid user or password 其实问题出i ...

pg distinct 改写递归优化（德哥的思路）

pg distinct 改写递归优化（德哥的思路）的更多相关文章

随机推荐

热门专题