GaussDB(DWS)运维：导致SQL执行不下推的改写方案

摘要：本文就针对因USING子句的书写方式可能导致MERGE INTO语句的执行不下推的场景，对USING子句的SQL语句进行改写一遍，整个SQL语句可以下推。

本文分享自华为云社区《GaussDB(DWS)运维 -- values子句做MERGE数据源导致SQL执行不下推的改写方案》，作者：譡里个檔。

现网做实时接入的时候，有的时候会使用MERGE INTO语句实现类似UPSERT的功能。这种场景下MERGE INTO语句的USING部分的数据位VALUES子句，为了后续的SQL语句中描述方便，需要对VALUES子句的输出命名别名。USING子句的书写方式可能导致MERGE INTO语句的执行不下推，本文就针对因此导致的不下推的场景，对USING子句的SQL语句进行改写一遍，整个SQL语句可以下推。

预置条件

CREATE TABLE t1(name text, id INT) DISTRIBUTE BY HASH(id);

原始语句

MERGE INTO t1 USING (

 SELECT *

 FROM (VALUES ('json', 1), ('sam', 2)) AS val(name, id)

) tmp ON (t1.id = tmp.id)

WHEN MATCHED THEN

 UPDATE SET t1.name = tmp.name

WHEN NOT MATCHED THEN

 INSERT (name, id) VALUES(tmp.name, tmp.id);

SQL语句不下推，导致执行低效

postgres=# EXPLAIN VERBOSE MERGE INTO t1 USING (

postgres(#     SELECT *

postgres(#     FROM (VALUES ('json', 1), ('sam', 2)) AS val(name, id)

postgres(# ) tmp ON (t1.id = tmp.id)

postgres-# WHEN MATCHED THEN

postgres-#     UPDATE SET t1.name = tmp.name

postgres-# WHEN NOT MATCHED THEN

postgres-#     INSERT (name, id) VALUES(tmp.name, tmp.id);

                                                                            QUERY PLAN

-------------------------------------------------------------------------------------------------------------------------------------------------------------------

  id |                       operation                       | E-rows | E-distinct | E-width | E-costs

 ----+-------------------------------------------------------+--------+------------+---------+---------

 1 | -> Merge on public.t1                                | 2 | | 54 | 0.08

 2 | ->  Nested Loop Left Join (3, 4)                   | 2 | | 54 | 0.08

 3 | -> Values Scan on "*VALUES*" | 2 | | 36 | 0.03

 4 | -> Data Node Scan on t1 "_REMOTE_TABLE_QUERY_" | 2 | | 18 | 0.00

 SQL Diagnostic Information

 ------------------------------------------------------------

 SQL is not plan-shipping

         reason: Type of Record in non-real table can not be shipped

   Predicate Information (identified by plan id)

 -------------------------------------------------

 1 --Merge on public.t1

         Node expr: : $10

 2 --Nested Loop Left Join (3, 4)

 Join Filter: (t1.id = "*VALUES*".column2)

 Targetlist Information (identified by plan id)

 -----------------------------------------------------------------------------------------------------------------------------------------------------------------

 1 --Merge on public.t1

         Node/s: All datanodes

         Remote query: UPDATE ONLY public.t1 SET name = $7, id = $8 WHERE t1.ctid = $5 AND t1.xc_node_id = $6

         Node/s: All datanodes

         Remote query: INSERT INTO public.t1 (name, id) VALUES ($9, $10)

 2 --Nested Loop Left Join (3, 4)

         Output: "*VALUES*".column1, "*VALUES*".column2, t1.name, t1.id, t1.ctid, t1.xc_node_id, "*VALUES*".column1, t1.id, "*VALUES*".column1, "*VALUES*".column2

 3 --Values Scan on "*VALUES*"

         Output: "*VALUES*".column1, "*VALUES*".column2

 4 --Data Node Scan on t1 "_REMOTE_TABLE_QUERY_"

         Output: t1.name, t1.id, t1.ctid, t1.xc_node_id

         Node/s: All datanodes

         Remote query: SELECT name, id, ctid, xc_node_id FROM ONLY public.t1 WHERE true

 ====== Query Summary =====

 --------------------------

 Parser runtime: 0.079 ms

 Planner runtime: 1.392 ms

 Unique SQL Id: 1657855173

(40 rows)

改写方案

MERGE INTO t1 USING (

 WITH val(name, id) AS(

 VALUES ('json', 1), ('sam', 2)

    )

 SELECT * FROM val

) tmp ON (t1.id = tmp.id)

WHEN MATCHED THEN

 UPDATE SET t1.name = tmp.name

WHEN NOT MATCHED THEN

 INSERT (name, id) VALUES(tmp.name, tmp.id);

改写后下推

postgres=# EXPLAIN VERBOSE MERGE INTO t1 USING (

postgres(#     WITH val(name, id) AS(

postgres(#         VALUES ('json', 1), ('sam', 2)

postgres(#     )

postgres(#     SELECT * FROM val

postgres(# ) tmp ON (t1.id = tmp.id)

postgres-# WHEN MATCHED THEN

postgres-#     UPDATE SET t1.name = tmp.name

postgres-# WHEN NOT MATCHED THEN

postgres-#     INSERT (name, id) VALUES(tmp.name, tmp.id);

                                                                      QUERY PLAN

------------------------------------------------------------------------------------------------------------------------------------------------------

  id |                  operation                   | E-rows | E-distinct | E-memory | E-width | E-costs

 ----+----------------------------------------------+--------+------------+----------+---------+---------

 1 | ->  Streaming (type: GATHER)                 | 1 | | | 54 | 1.56

 2 | -> Merge on public.t1                    | 2 | | | 54 | 1.15

 3 | ->  Streaming(type: REDISTRIBUTE)      | 2 | | 2MB      | 54 | 1.15

 4 | ->  Nested Loop Left Join (5, 7)    | 2 | | 1MB      | 54 | 1.11

 5 | ->  Subquery Scan on tmp | 2 | | 1MB      | 36 | 0.08

 6 | -> Values Scan on "*VALUES*" | 24 | | 1MB      | 36 | 0.03

 7 | ->  Seq Scan on public.t1        | 2 | | 1MB      | 18 | 1.01

 Predicate Information (identified by plan id)

 ---------------------------------------------

 4 --Nested Loop Left Join (5, 7)

 Join Filter: (t1.id = tmp.id)

 5 --Subquery Scan on tmp

         Filter: (Hash By tmp.id)

 Targetlist Information (identified by plan id)

 ----------------------------------------------------------------------------------------------------------------------------------------------------

 1 --Streaming (type: GATHER)

         Node/s: All datanodes

 3 --Streaming(type: REDISTRIBUTE)

         Output: tmp.name, tmp.id, t1.name, t1.id, t1.ctid, t1.xc_node_id, tmp.name, tmp.id, (CASE WHEN (t1.ctid IS NULL) THEN tmp.id ELSE t1.id END)

         Distribute Key: (CASE WHEN (t1.ctid IS NULL) THEN tmp.id ELSE t1.id END)

         Spawn on: All datanodes

         Consumer Nodes: All datanodes

 4 --Nested Loop Left Join (5, 7)

         Output: tmp.name, tmp.id, t1.name, t1.id, t1.ctid, t1.xc_node_id, tmp.name, tmp.id, CASE WHEN (t1.ctid IS NULL) THEN tmp.id ELSE t1.id END

 5 --Subquery Scan on tmp

         Output: tmp.name, tmp.id

 6 --Values Scan on "*VALUES*"

         Output: "*VALUES*".column1, "*VALUES*".column2

 7 --Seq Scan on public.t1

         Output: t1.name, t1.id, t1.ctid, t1.xc_node_id

         Distribute Key: t1.id

 ====== Query Summary =====

 -------------------------------

 System available mem: 3112960KB

 Query Max mem: 3112960KB

 Query estimated mem: 6336KB

 Parser runtime: 0.107 ms

 Planner runtime: 1.185 ms

 Unique SQL Id: 780461632

(44 rows)

点击关注，第一时间了解华为云新鲜技术~

GaussDB(DWS)运维：导致SQL执行不下推的改写方案的更多相关文章

【转】导致SQL执行慢的原因
索引对大数据的查询速度的提升是非常大的,Explain可以帮你分析SQL语句是否用到相关索引. 索引类似大学图书馆建书目索引,可以提高数据检索的效率,降低数据库的IO成本.MySQL在300万条记录左 ...
导致SQL执行慢的原因
索引对大数据的查询速度的提升是非常大的,Explain可以帮你分析SQL语句是否用到相关索引. 索引类似大学图书馆建书目索引,可以提高数据检索的效率,降低数据库的IO成本.MySQL在300万条记录左 ...
探索GaussDB(DWS)的过程化SQL语言能力
摘要:在当前GaussDB(DWS)的能力中主要支持两种过程化SQL语言,即基于PostgreSQL的PL/pgSQL以及基于Oracle的PL/SQL.本篇文章我们通过匿名块,函数,存储过程向大家介 ...
hint不当索引，影响多表连接方式，最终导致SQL执行缓慢
需求:一个SQL执行特别慢,无法返回结果,需要进行优化,最终返回结果即可. 一.SQL分析二.尝试执行,观测执行计划三.修改SQL 四.问题总结一.SQL分析 )SQL文本,执行时间,执行用户 ...
sql serverDB运维实用sql大全
运维sql server的sql总结,包含阻塞语句.等待语句.某个时间段的sql性能查询等等常用sql语句 ##断开库的连接,记得修改库名 USE masterGOALTER DATABASE [DB ...
记一次，因表变量导致SQL执行效率变慢
场景最近工作中,发现某同步JOB在执行中经常抛出SQL执行超时的问题,查看日志发现每次SQL执行的时间都是线性增长的,循环执行50次以后执行时间甚至超过了5分钟 JOB执行流程分析首先,对于JO ...
ELK学习笔记之F5 DNS可视化让DNS运维更安全更高效-F5 ELK可视化方案系列(3)
0x00 概述此文力求比较详细的解释DNS可视化所能带来的场景意义,无论是运维.还是DNS安全.建议仔细看完下图之后的大篇文字段落,希望能引发您的一些思考. 在“F5利用Elastic stack( ...
linux运维、架构之路-MHA高可用方案
一.软件介绍 MHA(master high availability)目前是MySQL高可用方面是一个相对成熟的解决方案.在切换过程中,mha能做到0-30s内自动完成数据库的 ...
linux运维、架构之路-全网备份项目方案
一.项目需求说明某公司有多台服务器,里面的数据很重要,如果磁盘坏了,数据就会丢失,所以公司要求把重要服务器数据备份以便出现问题时可以进行恢复,要求:每天晚上00点整在所有服务器上打包备份系统配置文件 ...
运维与开发的开车现场之MySQL5.7创建触发器报错解决过程
报错内容如下: ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds ...

随机推荐

Linux系统安装&VMware安装三
第十四步: 开始安装
win10下载jdk并配置环境变量
win10下载jdk并配置环境变量 1. jdk下载下载官网:Java SE开发套件15.0.2 2. jdk安装一直点下一步就可以 3. 环境变量配置右键我的电脑--属性--高级系统设置-- ...
re模块相关介绍
re模块模块和实际工作时间的关系 time模块和时间是什么关系?re模块和正则表达式的关系? 有了re模块就可以在python语言中操作正则表达式正则表达式 1:什么是正则表达式? 一套规则--- ...
Java中finalize()方法的使用
参考:https://blog.csdn.net/m0_64624615/article/details/126326921 垃圾回收器
Debug --> CICFlowMeter的java版本安装及使用
一. 首先,给出一个很详细的配置链接!使用IDEA进行配置~ https://blog.csdn.net/BananaMan45/article/details/105473151?utm_mediu ...
【Android报错】FileNotFoundException open failed:文件路径 EPERM (Operation not permitted)外部存储至根目录报错，Android外部存储权限动态获取问题
报错:FileNotFoundException open failed: XXXXXXX EPERM (Operation not permitted) 查了下,大概原因是因为权限的问题.(小白学A ...
deepin 调整微信、百度网盘、迅雷等等软件字体的方法
一.修改微信字体大小方法: 1.方法一:修改deepinwine桌面环境字体 env WINEPREFIX="$HOME/.deepinwine/Deepin-WeChat" wi ...
PTA1002 写出这个数 (20 分)
1002 写出这个数 (20 分) 读入一个正整数 n,计算其各位数字之和,用汉语拼音写出和的每一位数字. 输入格式: 每个测试输入包含 1 个测试用例,即给出自然数 n 的值.这里保证 n 小于 1 ...
crontab命令加载和使用
crontab命令用于设置周期性被执行的指令. 在Linux系统中,Linux任务调度的工作主要分为以下两类:1.系统执行的工作:系统周期性所要执行的工作,如备份系统数据.清理缓存2.个人执行的工作: ...
多线程post
async Task<long> post() { var stopwatch = new Stopwatch(); stopwatch.Start(); var client = new ...