如何使用GaussDB(DWS)的本地临时表进行数据处理
本文分享自华为云社区《GaussDB(DWS)临时表系列 - 本地临时表》,作者: acydy 。
GaussDB(DWS) 从8.2.1版本后支持三种形式的临时表:本地临时表、Volatile临时表、全局临时表。本文先介绍DWS的本地临时表功能。
本地临时表特点:表定义和数据都是会话相关,其他会话看不到本会话创建的本地临时表。元数据会持久化到系统表,集群节点异常出错可以支持RETRY。
语法与使用
CREATE [LOCAL] { TEMPORARY | TEMP } TABLE [ IF NOT EXISTS ] table_name
({ column_name data_type [ compress_mode ] [ COLLATE collation ] [ column_constraint [ ... ] ]
| table_constraint
| LIKE source_table [ like_option [...] ] }
[, ... ])
[ WITH ( {storage_parameter = value} [, ... ] ) ]
[ ON COMMIT { PRESERVE ROWS | DELETE ROWS } ]
建表时需要指定TEMP或者TEMPORARY,表示创建本地临时表。
- ON COMMIT { PRESERVE ROWS | DELETE ROWS }
ON COMMIT选项决定在事务中执行创建临时表操作,当事务提交时,此临时表的后续操作。
- PRESERVE ROWS(缺省值):提交时不对临时表做任何操作,临时表及其表数据保持不变。建议使用此种类型。
- DELETE ROWS:提交时删除临时表中数据。
其他部分与普通表相同。
gaussdb=# create temp table tmp1(a int,b int);
NOTICE: The 'DISTRIBUTE BY' clause is not specified. Using round-robin as the distribution mode by default.
HINT: Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column.
CREATE TABLE
临时表可以与非临时表同名。如果同名,优先级临时表高于非临时表。
gaussdb=# create temp table tmp1(a int,b int);
NOTICE: The 'DISTRIBUTE BY' clause is not specified. Using round-robin as the distribution mode by default.
HINT: Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column.
CREATE TABLE
gaussdb=# insert into tmp1 values(1,1);
INSERT 0 1
gaussdb=# create table tmp1(a int,b int);
NOTICE: The 'DISTRIBUTE BY' clause is not specified. Using round-robin as the distribution mode by default.
HINT: Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column.
CREATE TABLE
gaussdb=# select *from tmp1;
a | b
---+---
1 | 1
(1 row) gaussdb=# select *from public.tmp1;
a | b
---+---
(0 rows)
视图:基于临时表创建的视图是临时视图。
postgres=# create view tmp_v1 as select *from tmp1;
NOTICE: view "tmp_v1" will be a temporary view
CREATE VIEW
使用场景
复杂业务逻辑使用本地临时表拆分
如果业务SQL语句过于复杂,可以使用本地临时表将执行的中间结果缓存下来,从而将复杂业务逻辑拆分成多个较简单语句。简单语句的统计信息更为准备,且拆分后的业务更易于维护。
支持CN节点出现异常。
GaussDB(DWS) 是一款分布式架构的数据库。有多个Coordinator(CN),关系对等。客户端可以连接任意一个CN。CN上存有表的元数据信息。在执行DDL时,会在所有DN上进行元数据的同步,保证数据一致性。如果某个CN出现异常,会导致创建表、删除表等操作执行失败,进而导致整个作业执行失败。在这种场景,可以使用本地临时表。本地临时表只在当前会话可见。执行本地临时表的创建、ALTER、删除等操作时,只会在当前CN进行元数据的修改。这样可以不受其他CN节点异常的影响,保证业务使用连续性。
原理
临时表在元数据上与普通表的区别是临时表由于在其他会话不可见,所以会建在一个只属于当前会话的schema。本会话第一次创建临时表时会同时建立这个会话的schema。每一个会话的临时schema都不同。
会话1:
gaussdb=# create temp table tmp1(a int,b int);
NOTICE: The 'DISTRIBUTE BY' clause is not specified. Using round-robin as the distribution mode by default.
HINT: Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column.
CREATE TABLE
gaussdb=# \d+ tmp1
Table "pg_temp_coordinator1_65_3_140257888512760.tmp1"
Column | Type | Modifiers | Storage | Stats target | Description
--------+---------+-----------+---------+--------------+-------------
a | integer | | plain | |
b | integer | | plain | |
Has OIDs: no
Distribute By: ROUND ROBIN
Location Nodes: ALL DATANODES
Options: orientation=row, compression=no:
会话2, 查询不到tmp1表。
gaussdb=# select * from tmp1;
ERROR: relation "tmp1" does not exist
LINE 1: select * from tmp1;
^
临时schema的命名规则:pg_temp_Coordinator名_timelineID_全局自增ID_threadID
Coordinator名:CN名称,隔离不同CN创建的schema。
timelineID:在节点重启后会增加,用于判断此schema是否已经无效。
全局自增ID:单个CN上自增ID。同一个CN不用会话自增ID不同。
元数据:本地临时表的relpersistence标识是’t’。
gaussdb=# select relname, relpersistence from pg_class where relname = 'tmp1';
relname | relpersistence
---------+----------------
tmp1 | t
数据清理:
会话正常退出
会话正常退出时, 本地临时表的表定义和数据都会被删除。无法再访问原来的数据。会话异常退出或者当前CN或者某个DN节点异常时。
出现异常时,节点的元数据和数据不会被立即删除。 GaussDB(DWS)依赖组件gs_clean工具进行本地临时表的自动定期清理。保证数据再一段周期后得到清理,防止空间持续膨胀。
CN Retry
CN Retry功能开启时会为临时表数据记录日志,为保证数据一致性,在使用临时表时不建议切换CN Retry开关状态,保持使用临时表的会话中CN Retry开关始终处于打开状态或者关闭状态。
在打开CN Retry时,DN节点异常重启,临时表的数据可以保证不丢失。DN重启后,仍可以访问之前的会话。
如果希望临时表不记录日志:
set max_query_retry_times = 0;
使用约束
- 如果上层应用,使用了连接池机制连接GaussDB(DWS),在使用临时表时,强烈建议将连接归还连接池之前,将临时表主动删除,避免造成连接未断开导致的数据异常。或者使用命令
DISCARD TEMP清理会话的临时表信息。 - 扩容时忽略本地临时表。
- 不支持gs_dump 本地临时表。
如何使用GaussDB(DWS)的本地临时表进行数据处理的更多相关文章
- 十八般武艺玩转GaussDB(DWS)性能调优:SQL改写
摘要:本文将系统介绍在GaussDB(DWS)系统中影响性能的坏味道SQL及SQL模式,帮助大家能够从原理层面尽快识别这些坏味道SQL,在调优过程中及时发现问题,进行整改. 数据库的应用中,充斥着坏味 ...
- GaussDB(DWS)应用实践丨负载管理与作业排队处理方法
摘要:本文用来总结一些GaussDB(DWS)在实际应用过程中,可能出现的各种作业排队的情况,以及出现排队时,我们应该怎么去判断是否正常,调整一些参数,让资源分配与负载管理更符合当前的业务:或者在作业 ...
- 细说GaussDB(DWS)复杂多样的资源负载管理手段
摘要:对于如此多的管控功能,管控起来实际的效果到底如何,本篇文章就基于当前最新版本,进行效果实测,并进行一定的分析说明. 本文分享自华为云社区<GaussDB(DWS) 资源负载管理:并发管控以 ...
- 5步带你入门GaussDB(DWS)的GDS导入导出
摘要:本篇文档为使用GDS导入示例的具体简单步骤和示例. 本文分享自华为云社区<带你快速入门GDS导入导出,玩转PB级数仓GaussDB(DWS)>,作者: yd_220527686. 1 ...
- 【数仓运维实践】关于GaussDB(DWS)单SQL磁盘空间管控
摘要:本文主要讲解数仓运维中遇到单SQL磁盘空间管控问题的解析和方案. 本文分享自华为云社区<GaussDB(DWS)运维 -- 单SQL磁盘空间管控>,作者: 譡里个檔. [问题描述] ...
- Sql server 本地临时表、全局临时表的区别
创建了本地临时表#Tmp.全局临时表##Tmp: 本地临时表: 取名以#开头.如:#Tmp(会自动加上一串后缀) 只有当前的连接可以访问 连接关闭后,本地临时表自动释放 全局临时表: 取名以##开头. ...
- GaussDB(DWS)应用实战:对被视图引用的表进行DDL操作
摘要:GaussDB(DWS)是从Postgres演进过来的,像Postgres一样,如果表被视图引用的话,特定场景下,部分DDL操作是不能直接执行的. 背景说明 GaussDB(DWS)是从Post ...
- 详解GaussDB(DWS) explain分布式执行计划
摘要:本文主要介绍如何详细解读GaussDB(DWS)产生的分布式执行计划,从计划中发现性能调优点. 前言 执行计划(又称解释计划)是数据库执行SQL语句的具体步骤,例如通过索引还是全表扫描访问表中的 ...
- 十八般武艺玩转GaussDB(DWS)性能调优(三):好味道表定义
摘要:表结构设计是数据库建模的一个关键环节,表定义好坏直接决定了集群的有效容量以及业务查询性能,本文从产品架构.功能实现以及业务特征的角度阐述在GaussDB(DWS)的中表定义时需要关注的一些关键因 ...
- 从数据仓库双集群系统模式探讨,看GaussDB(DWS)的容灾设计
摘要:本文主要是探讨OLAP关系型数据库框架的数据仓库平台如何设计双集群系统,即增强系统高可用的保障水准,然后讨论一下GaussDB(DWS)的容灾应该如何设计. 当前社会.企业运行当中,大数据分析. ...
随机推荐
- 21.3 Python 使用DPKT分析数据包
dpkt项目是一个Python模块,主要用于对网络数据包进行解析和操作.它可以处理多种协议,例如TCP.UDP.IP等,并提供了一些常用的网络操作功能,例如计算校验和.解析DNS数据包等.由于其简单易 ...
- React项目中webpack的配置过程
初始化一个web项目 使用npm init -y 初始化一个项目 在项目目录下创建src, dist文件夹,创建webpack.config.js配置文件 然后在src文件夹下创建index.js, ...
- IOI2020 国家集训队作业 Part 1
日期不对,但要保证顺序正确方便查找少了啥题. 计算几何和实在不会的题没写. 9.20 CF504E Misha and LCP on Tree *3000 二分,hash,树剖 CF505E Mr. ...
- umich cv-5-1 神经网络训练1
这节课中介绍了训练神经网络的第一部分,包括激活函数的选择,权重初始化,数据预处理以及正则化方法 训练神经网络1 激活函数 数据预处理 权重初始化 正则化方法 激活函数 这部分主要讨论我们之前提到的几种 ...
- P3870 [TJOI2009] 开关(线段树)
P3870 [TJOI2009] 开关 思路:可以用线段树来维护区间中亮灯的个数,区间修改用加上懒标记就好 #include <bits/stdc++.h> #define LL long ...
- 洛谷P1462spfa + 二分答案
第一次接触二分答案的题目最开始是没有思路的看了一个题解,然后强行理解之后开始自己打了一遍,然而结果是只得了30分过了3个点其他全wa,之后是漫长的debug,这里想感慨一句自己debug的速度是真慢. ...
- yum仓库及NFS共享
yum仓库及NFS共享 1.yum简介 yum是一个基于RPM包(是Red-Hat Package Manager红帽软件包管理器的缩写)构建的软件更新机制,能够自动解决软件包之间的依赖关系.解决了日 ...
- 使用GPT4进行数据分析,竟然被他骗了
上周,OpenAI开发者大会上OpenAI发布了一系列震撼人心的功能.而最让我感兴趣的,就是GPT4的数据分析功能了.话不多说,赶紧上号体验一下. 在最新登录GPT4的时候,都会有下面这个提示,目前已 ...
- 混合应用与Hybrid App开发上架流程透析
Hybrid App(混合 App)已经成为大家接触最为广泛的 App 形式,不管是我们用到的微信.支付宝还是淘宝.京东等大大小小的应用都非常热衷于Hybrid App 带来的研发效率提升和灵活性. ...
- 记一次 RestTemplate 请求失败问题的排查 → RestTemplate 默认会对特殊字符进行转义
开心一刻 今天中午,侄子在沙发上玩手机,他妹妹屁颠屁颠的跑到他面前 小侄女:哥哥,给我一块钱 侄子:叫妈给你 小侄女朝着侄子,毫不犹豫的叫到:妈! 侄子:不是,叫妈妈给你 小侄女继续朝他叫到:妈妈 侄 ...