Greeplum 系列(八) 数据维护

一、事务管理

begin(start transaction)       # 开始事务
savepoint # 保存事务回滚点
rollback # 回滚事务
end(commit) # 结束事务

二、回收空间和分析

(1) 过期记录来源

  1. 事务ID管理:在每个数据库每2百万个事务的时候,对每张表执行VACUUM是很有必要的。
  2. 系统目录维护:大量的CREATE和DROP命令会导致系统表的迅速膨胀,以至于影响系统性能。
  3. MVCC事务并发模型:已经删除或者更新的记录仍然占据着磁盘空间。
  4. 如果数据库有大量的更新和删除操作,将会产生大量的过期记录。

所以需要定期的运行 VACUUM 命令可以删除过期记录,回收空间。

vacuum tb01;
vacuum full; # 回收所有过期记录,但是耗时长,生产环境中不建议使用

(2) 配置子空间映射

过期的记录会被存放在叫做自由空间映射的地方,超出自由映射空间的过期记录所占用的空间无法回收(除非删除表);

自由映射空间的设置参数(一般不用配制):max_fsm_pages、max_fsm_relations

(3) 查询优化器

GP 使用基于成本的查询优化器,使用 analyze 命令收集查询优化器需要的统计信息,可以和 vaccum 一起使用。

vaccum analyze tb_cp_02;

三、日常重建索引

  1. 对于 B-tree 索引,新重建的索引比存在较多更新的索引更快
  2. 重建索引可以回收过期的空间
  3. 在 GP 中,删除索引然后创建通常比 REINDEX 更快
  4. 当更新数据时,Bitmap 索引不会被更新

四、管理 GPDB 日志文件

(1) 数据库服务日志文件

GP 在 Master 和所有 Segment 实例上开启了日志文件按天滚动,服务器日志文件存放在每个实例数据目录的 pg_log 目录下。格式:gpdb-YYYY-MM-DD_TIME.csv

通过 gplogfilter 工具来查找匹配指定标准的日志数据

gplogfilter –n 3

gplogfilter + gpssh 工具组合在所有 segment 节点进行查找

gpssh –f seg_host_file
=> gplogfilter –n 3 /data/primary/*/pg_log/gpdb*.csv

(2) 程序日志文件

缺省位于 ~/gpAdminLogs 目录下。命令方式:<script_name>_.log。日志记录的格式:

<timestamp>:<utility>:<host>:<user>:[INFO|WARN|FATAL]:<message>

五、系统数据字典

所有的系统数据字典存放在 pg_catalog 模式下,标准的 PostgreSQL 系统数据字典为pg_*

GP特有的字典目录:

gp_configuration
gp_distribution_policy
gp_distributed_log
gp_id
gp_version_at_initdb
gp_master_mirroring
gp_pgdatabase

在 psql 中列出所有的系统字典:\dtS

在 psql 中列出所有的系统视图:\dvS


每天用心记录一点点。内容也许不重要,但习惯很重要!

Greeplum 系列(八) 数据维护的更多相关文章

  1. 学习ASP.NET Core Blazor编程系列八——数据校验

    学习ASP.NET Core Blazor编程系列一--综述 学习ASP.NET Core Blazor编程系列二--第一个Blazor应用程序(上) 学习ASP.NET Core Blazor编程系 ...

  2. Docker系列八: 数据卷

    什么是数据卷 生成环境中使用docker的过程中,往往需要对数据进行持久化,或者需要多个容器之间进行数据共享,这个就涉及到了容器数据管理 容器中管理数据主要有两种方式: 数据卷:容器内数据之间映射到本 ...

  3. Greeplum 系列(四) 数据的装载与卸裁

    Greeplum 系列(四) 数据的装载与卸裁 装载数据有以下种方法: insert copy 外部表 gpload 下面以 member_delta 表为例分别介绍这四种方法. create tab ...

  4. Greeplum 系列(三) 基本用法

    Greeplum 系列(三) 基本用法 <PostgreSQL 教程>:https://www.yiibai.com/postgresql 一.Greeplum 登陆与创建 1.1 登陆 ...

  5. 在 Apache 上使用网络安全服务(NSS)实现 HTTPS--RHCE 系列(八)

        在 Apache 上使用网络安全服务(NSS)实现 HTTPS--RHCE 系列(八) 发布:linux培训 来源:Linux认证 时间:2015-12-21 15:26 分享到: 达内lin ...

  6. SQL Server 2008空间数据应用系列八:基于Bing Maps(Silverlight)的空间数据存储

    原文:SQL Server 2008空间数据应用系列八:基于Bing Maps(Silverlight)的空间数据存储 友情提示,您阅读本篇博文的先决条件如下: 1.本文示例基于Microsoft S ...

  7. C语言高速入门系列(八)

    C语言高速入门系列(八) C语言位运算与文件 本章引言: 在不知不觉中我们的C高速入门系列已经慢慢地接近尾声了,而在这一节中,我们会对 C语言中的位运算和文件进行解析,相信这两章对于一些人来说是陌生的 ...

  8. Greeplum 系列(一) Greenplum 架构

    Greeplum 系列(一) Greenplum 架构 Greenplum 可进行海量并行处理 (Massively Parallel Processing) 一.Greenplum 体系架构 Gre ...

  9. Greeplum 系列(六) 备份与恢复

    Greeplum 系列(六) 备份与恢复 http://www.dbdream.com.cn/category/greenplum/ 先介绍几个命令查看 Greenplum 集群状态: # 1. 查看 ...

随机推荐

  1. 常用PHP框架收集

    1.ThinkCMFX http://git.oschina.net/thinkcmf/ThinkCMFX 2.ThinkPHP http://www.thinkphp.cn/down.html 3. ...

  2. test20181016 B君的第三题

    题意 B 君的第三题(haskell) 题目描述 大学四年,我为什么,为什么不好好读书,没找到和你一样的工作. B 君某天看到了这样一个题,勾起了无穷的回忆. 输入\(n, k\) 和一棵\(n\) ...

  3. 设计模式(Python)-策略模式

    本系列文章是希望将软件项目中最常见的设计模式用通俗易懂的语言来讲解清楚,并通过Python来实现,每个设计模式都是围绕如下三个问题: 为什么?即为什么要使用这个设计模式,在使用这个模式之前存在什么样的 ...

  4. String.valueof;和String = ""+1;的区别

    关于字符串的+操作,单纯的String  s ="" +11;编译器会看做常量""和常量11的拼接操作,常量计算最快:String.valueOf会调用方法,速 ...

  5. 部署Web API后Delete请求总是报 405(Method Not Allowed)解决办法

    WebDAV                   安装IIS的时候如果选择了WebDAV(Web Distribution Authorization Versioning) Publish,则所有的 ...

  6. NOIP 2005 校门外的树

    #include<iostream> #include<cstring> using namespace std; int a[10005]; int main() { mem ...

  7. SQL Developer更改日期显示格式

    工具->首选项->数据库->NLS->日期格式: DD-MON-RR 修改为: YYYY-MM-DD HH24:MI:SS

  8. FPGA--数字芯片之母

    这个世界先有鸡还是先有蛋?没有人知道答案.但是如果有人问ess9018.ak4497.cs43198这些高端SIGMADELTA架构DAC的妈妈是谁?我们可以回答您:它们都有一个同样的妈,名字叫做FP ...

  9. [maven] 实战笔记 - 构建、打包和安装maven

    ① 手工构建自己的maven项目 Maven 项目的核心是 pom.xml.POM (Project Object Model,项目对象模型)定义了项目的基本信息,用于描述项目如何构建,声明项目依赖等 ...

  10. 代理Servlet过滤器

    Spring Security借助一些列Servlet 过滤器 来提供 各种 安全性功能. 我们只需要在应用中的 web.xml 中配置 一个过滤器. <filter> <filte ...