本文分享自华为云社区《GaussDB(DWS) 谓词列analyze揭秘》，作者：SmithCoder。

1. 前言

适用版本：【9.1.0.100（及以上）】

当前GaussDB(DWS)中存在手动analyze，查询触发的动态analyze，以及后台线程的轮询analyze三种触发形式，其中动态analyze又分为light模式和normal模式，light模式是基于内存存储统计信息，normal模式是存储在系统表里，前者较为轻量，对目标表仅加一级锁。这些analyze默认都是对表全列进行采样，尤其对于大宽表analyze，耗时会比较久，其实很多时候计划生成所需的统计信息列只占一部分，如果只对这部分列进行采样计算，将会大大节省analyze的时间。因此GaussDB(DWS)引入了谓词列analyze。

2.原理介绍

analyze的时候主要耗时在采样数据，对于非定长列如varchar，其统计信息的计算也耗时，耗时肯定随着表的列数增加而变长。谓词列analyze会在查询阶段对谓词列进行识别收集，当触发动态analyze，会只选择采样谓词列，手动谓词列analyze也会只采样谓词列部分。

谓词列通指于 WHERE 条件，join条件，group by中涉及到的列，更广义的是指所有需要用于计划生成需要统计信息列的列。

识别到的谓词列包含：

条件谓词列

如比较（=,>,<），like, between,is,in, having，join on,MERGE on后面的列

排序分组列

如group by， order by, distinct, over partition/order by列，union /minus列

子查询引用列

等值条件列为一个子查询，子查询的对应的输出列；

cte中的一个列被外层引用为谓词列；

视图中的列被外层应用为谓词列；

agg列

索引列

列建立了索引，相应的列也会被收集识别

分布列

如果表建立了hash分别列，分布列也收集识别

3.使用介绍

下面分别介绍谓词列analyze支持两种形式：

动态采样谓词列analyze
手动谓词列analyze

3.1谓词列的guc控制

谓词列analyze的开启由guc参数analyze_predicate_column_threshold控制

参数说明：控制是否开启谓词列ANALYZE及限定支持的最小列数。该参数仅9.1.0.100及以上集群版本支持。

参数类型：SIGHUP

取值范围：整型，0～10000

0表示关闭谓词列ANALYZE，不会收集谓词列以及对谓词列进行ANALYZE。
大于0表示开启谓词列收集功能，且仅对列数大于等于此值的表进行谓词列ANALYZE。

默认值：10

3.2.动态采样谓词列analyze

前提：动态采样谓词列analyze只支持light模式

查询的时候会进行谓词列的识别，如果有新的谓词列或者修改计数达到，则会触发动态采样，会把新识别的和已有的谓词列进行采样计算统计信息。

下面是按照analyze_predicate_column_threshold=1举例，计划中RunTime Analyze Information部分会打印出analyze的表和列信息。

create table t1(a int, b int, c int);

create table t2(a int, b int, c int);

set enable_fast_query_shipping=off;

set autoanalyze_mode=light;

-- 首次会收集所有列的统计信息

test=# explain select * from t1;

                                                            QUERY PLAN

-------------------------------------------------------------------------------------------------------------------------------

  id |          operation           | E-rows | E-memory | E-width | E-costs

 ----+------------------------------+--------+----------+---------+---------

   1 | ->  Streaming (type: GATHER) |     20 |          |      12 | 16.10

   2 |    ->  Seq Scan on t1        |     20 | 1MB      |      12 | 10.10   

                                                   RunTime Analyze Information

 ------------------------------------------------------------------------------------------------------------------------------

       light runtime analyze on "public.t1" times:9.245ms, stats:sync, change:0(0 in xact), alive:0.000000, threshold:50.000000

   ====== Query Summary =====

 -------------------------------

 System available mem: 4710400KB

 Query Max mem: 4710400KB

 Query estimated mem: 1024KB

 insert into t1 select generate_series(1, 100), 1;

 -- 修改计数达到，收集到了a,b两个谓词列，触发动态采样

 test=# explain select * from t1 where a=b;

                                                                QUERY PLAN

--------------------------------------------------------------------------------------------------------------------------------

  id |          operation           | E-rows | E-memory | E-width | E-costs

 ----+------------------------------+--------+----------+---------+---------

   1 | ->  Streaming (type: GATHER) |      1 |          |      12 | 7.62

   2 |    ->  Seq Scan on t1        |      1 | 1MB      |      12 | 1.62    

                                                        RunTime Analyze Information

 -------------------------------------------------------------------------------------------------------------------------------

     light runtime analyze on "public.t1(a,b)" times:9.774ms, stats:sync, change:100(0 in xact), alive:100.000000, threshold:50

 Predicate Information (identified by plan id)

 ---------------------------------------------

   2 --Seq Scan on t1

         Filter: (a = b)

   ====== Query Summary =====

 -------------------------------

 System available mem: 4710400KB

 Query Max mem: 4710400KB

 Query estimated mem: 1024KB

(19 rows)

-- 修改计数达到后查询，查询下面的语句，会分别收集表t1,t2对应的谓词列

test=# explain select t1.* from t1 join t2 on t1.b=t2.c where t1.a=t2.a;

                                                                 QUERY PLAN

--------------------------------------------------------------------------------------------------------------------------------

  id |              operation               | E-rows | E-memory | E-width | E-costs

 ----+--------------------------------------+--------+----------+---------+---------

   1 | ->  Streaming (type: GATHER)         |      2 |          |      12 | 21.55

   2 |    ->  Hash Join (3,5)               |      2 | 1MB      |      12 | 15.55

   3 |       ->  Streaming(type: BROADCAST) |    400 | 2MB      |       8 | 10.93

   4 |          ->  Seq Scan on t2          |    200 | 1MB      |       8 | 2.00

   5 |       ->  Hash                       |    200 | 16MB     |      12 | 2.00

   6 |          ->  Seq Scan on t1          |    200 | 1MB      |      12 | 2.00    

                                                        RunTime Analyze Information

 -------------------------------------------------------------------------------------------------------------------------------

     light runtime analyze on "public.t1(a,b)" times:11.031ms, stats:sync, change:100(0 in xact), alive:200.000000, threshold:60

     light runtime analyze on "public.t2(a,c)" times:8.571ms, stats:sync, change:100(0 in xact), alive:200.000000, threshold:60

    Predicate Information (identified by plan id)

 ----------------------------------------------------

   2 --Hash Join (3,5)

         Hash Cond: ((t2.c = t1.b) AND (t2.a = t1.a))

   ====== Query Summary =====

 -------------------------------

 System available mem: 4710400KB

 Query Max mem: 4710400KB

 Query estimated mem: 4388KB

-- 遇到新的谓词列且该列没有统计信息也会触发

 test=# explain select * from t1 where c=1;

                                                                 QUERY PLAN

--------------------------------------------------------------------------------------------------------------------------------

  id |          operation           | E-rows | E-memory | E-width | E-costs

 ----+------------------------------+--------+----------+---------+---------

   1 | ->  Streaming (type: GATHER) |      1 |          |      12 | 8.25

   2 |    ->  Seq Scan on t1        |      1 | 1MB      |      12 | 2.25    

                                                        RunTime Analyze Information

 -------------------------------------------------------------------------------------------------------------------------------

    light runtime analyze on "public.t1(a,b,c)" times:10.063ms, stats:sync, change:0(0 in xact), alive:200.000000, threshold:70

3.3手动谓词列

语法：analyze (predicate) tablename;

执行后，只会对当前为止收集到的谓词列进行采样，最后在查询业务稳定后使用；

3.4谓词列管理

查询谓词列

通过函数pg_stat_get_predicate_columns可以查询当前表有哪些谓词列

test=# select pr.attnum,pa.attname from pg_catalog.pg_stat_get_predicate_columns('t1'::regclass) pr left join pg_attribute pa on pa.attrelid='t1'::regclass and pa.attnum = pr.attnum;

 attnum | attname

--------+---------

      1 | a

      2 | b

(2 rows)

清空谓词列

通过函数select * from pg_catalog.pg_stat_get_predicate_columns(‘t1_3’::regclass);可以清空表的谓词列，一般用于谓词列太多或者过期的情况去清空重建

4.总结

9.1.0.100版本中autoanalyze(light模式)和谓词列默认是开启的，用户无需感知。对于频繁大量更新和查询场景，此前的动态采样可能会耗时，影响查询业务，新增谓词列后会减少analyze的耗时，特别对大宽表场景耗时优化是可观的。

5. 参考文档

一文读懂analyze使用【这次高斯不是数学家】 https://bbs.huaweicloud.com/blogs/354294

一文读懂autoanalyze使用【这次高斯不是数学家】 https://bbs.huaweicloud.com/blogs/354298

华为开发者空间，汇聚鸿蒙、昇腾、鲲鹏、GaussDB、欧拉等各项根技术的开发资源及工具，致力于为每位开发者提供一台云主机、一套开发工具及云上存储空间，让开发者基于华为根生态创新。点击链接，免费领取您的专属云主机。

点击关注，第一时间了解华为云新鲜技术~

优化大宽表查询性能，揭秘GaussDB(DWS) 谓词列analyze的更多相关文章

android app性能优化大汇总（内存性能优化）
转载请注明本文出自大苞米的博客(http://blog.csdn.net/a396901990),谢谢支持! 写在最前: 本文的思路主要借鉴了2014年AnDevCon开发者大会的一个演讲PPT,加上 ...
mysql 优化海量数据插入和查询性能
对于一些数据量较大的系统,数据库面临的问题除了查询效率低下,还有就是数据入库时间长.特别像报表系统,每天花费在数据导入上的时间可能会长达几个小时或十几个小时之久.因此,优化数据库插入性能是很有意义的. ...
提升50%！Presto如何提升Hudi表查询性能？
分享一篇关于使用Hudi Clustering来优化Presto查询性能的talk talk主要分为如下几个部分演讲者背景介绍 Apache Hudi介绍数据湖演进和用例说明 Hudi Clust ...
Oracle Spatial分区应用研究之一：分区与分表查询性能对比
1.名词解释分区:将一张大表在物理上分成多个分区,逻辑上仍然是同一个表名. 分表:将一张大表拆分成多张小表,不同表有不同的表名. 两种数据组织形式的原理图如下: 图 1分表与分区的原理图 2.实验目 ...
spark生成大宽表的parquet性能优化
1. 背景介绍将一份数据量很大的用户属性文件解析成结构化的数据供查询框架查询剖析,其中用户属性包含用户标识,平台类型,性别,年龄,学历,兴趣爱好,购物倾向等等,大概共有七百个左右的标签属性.为了查 ...
数据库优化之锁表查询 (Sql Server)
查询锁表语句 select request_session_id spid,DB_NAME(resource_database_id) databaseName, OBJECT_NAME(resour ...
mysql select limit 大数据量查询性能终极提升方法
还是广告位我们的使用mysql的时候总是想当然的使用 select × from tables where a>0 order by id desc limit 500000,200 当我们真 ...
十八般武艺玩转GaussDB(DWS)性能调优（三）：好味道表定义
摘要:表结构设计是数据库建模的一个关键环节,表定义好坏直接决定了集群的有效容量以及业务查询性能,本文从产品架构.功能实现以及业务特征的角度阐述在GaussDB(DWS)的中表定义时需要关注的一些关键因 ...
MySQL查询性能优化(精)
MySQL查询性能优化 MySQL查询性能的优化涉及多个方面,其中包括库表结构.建立合理的索引.设计合理的查询.库表结构包括如何设计表之间的关联.表字段的数据类型等.这需要依据具体的场景进行设计.如下 ...
170727、MySQL查询性能优化
MySQL查询性能优化 MySQL查询性能的优化涉及多个方面,其中包括库表结构.建立合理的索引.设计合理的查询.库表结构包括如何设计表之间的关联.表字段的数据类型等.这需要依据具体的场景进行设计.如下 ...

随机推荐

C++ 第三节课指针的使用
#include <iostream> using namespace std; void show(){ cout << "全局函数" << ...
Vue3 的emit3 属性和 props 属性？
使用场景:使用父子组件通信的时候 : 作用: 用来声明组件有哪些自定义事件,不在emtis里面都会当成原生事件,绑定给组件的根标签. 好处: 不在像 vue2 使用 .native 修饰符在 v ...
.NET高级调试 - 3.7对象检查
简介在大多数调试会话中,首先需要检查的项目就是分析应用程序的状态.在确认程序的问题是某种无效状态造成的,我们便需要分析程序是如何变成无效状态的.那么在分析过程中,需要为我们深入了解对象的各种审查方法 ...
Android复习(二)应用资源——>字符串
转自:https://developer.android.google.cn/guide/topics/resources/string-resource#kotlin 字符串资源为您的应用提供具有可 ...
云原生周刊：K8s 1.26 到 1.29 版本的更新｜ 2024.1.29
开源项目推荐 Skaffold Skaffold 是一个命令行工具,有助于 Kubernetes 应用程序的持续开发.您可以在本地迭代应用程序源代码,然后部署到本地或远程 Kubernetes 集群. ...
python实战-编写请求方法重试（用途：请求重试、也可用于其他场景）、日志、执行耗时、手机号与邮箱校验装饰器
更新日志 2023.2.9 增加重试装饰器防止函数原信息被改变使用:@functools.wraps(func)装饰执行函数 # _*_ coding: UTF-8 _*_ "" ...
jmeter测试rpc接口-使用dubbo框架调用
1.下载用于测试dubbo的spring boot项目参考文章: http://t.zoukankan.com/111testing-p-11297038.html https://zhuanlan ...
IDEA常用插件推荐
IDEA支持特别多的插件,今天记录一下我常用的插件.欢迎在评论区推荐更多插件!!! 1.Translation - 必备翻译插件基于 IntelliJ 的 IDE 的翻译插件推荐指数: 插件链接: ...
利用腾讯元器，将公众号变身为强大的.NET AI智能体
前言经常有粉丝朋友在公众号后台私信提问,因为个人平时比较少看公众号后台的私信所以没法及时回复.最近发现腾讯推出了一个可以创建和使用各种智能体的平台(帮助小白也能快速使用AI):腾讯元器,正好自己每天 ...
Hello Markdown（完结）
Hello Markdown Markdown是一种轻量级的「标记语言」. 专注于文字内容: 纯文本,易读易写,可以方便地纳入版本控制: 语法简单,没有什么学习成本,能轻松在码字的同时做出美观大方的排 ...

优化大宽表查询性能，揭秘GaussDB(DWS) 谓词列analyze