Clickhouse 实现 MaterializedPostgreSQL
Clickhouse 实现 MaterializedPostgreSQL
开发环境:macOS 12.4 + docker
一、环境搭建
docker-compose.yml
services:
postgis:
image: postgis/postgis:13-3.1
restart: always
expose:
- "5432"
ports:
- "5432:5432"
environment:
POSTGRES_USER: {POSTGRES_USER}
POSTGRES_PASSWORD: {POSTGRES_PASSWORD}
POSTGRES_DB: mydb
POSTGRES_HOST: localhost
POSTGRES_HOST_AUTH_METHOD: trust
clickhouse:
image: clickhouse/clickhouse-server:22.6.4
restart: always
expose:
- 9009
- 8123
ports:
- "9009:9009"
- "8123:8123"
environment:
platform: linux/amd64
ulimit nofile: 262144:262144
二、PgSQL 环境设置
要求
- wal_level 设置必须有一个值
logical
和max_replication_slots
参数必须有一个值至少2
在 PostgreSQL 配置文件。 - 每个复制的表必须具有以下 副本标识之一:
- primary key (by default)
- index
wal_level
wal_level
决定多少信息写入到 WAL 中。默认值是replica
,它会写入足够的数据以支持WAL归档和复制,包括在后备服务器上运行只读查询。minimal
会去掉除从崩溃或者立即关机中进行恢复所需的信息之外的所有记录。最后,logical
会增加支持逻辑解码所需的信息。每个层次包括所有更低层次记录的信息。这个参数只能在服务器启动时设置。
在minimal
级别中,某些批量操作的 WAL 日志可以被安全地跳过,这可以使那些操作更快(见populate-pitr)。这种优化可以应用的操作包括:
- CREATE TABLE AS
- CREATE INDEX
- CLUSTER
- COPY到在同一个事务中被创建或截断的表中
但最少的 WAL 不会包括足够的信息来从基础备份和 WAL 日志中重建数据,因此,要启用 WAL 归档(archive_mode)和流复制,必须使用replica
或更高级别。
在logical
层,与replica
相同的信息会被记录,外加上 允许从 WAL 抽取逻辑修改集所需的信息。使用级别 logical
将增加 WAL 容量,特别是如果为了REPLICA IDENTITY FULL
配置了很多表并且执行了很多UPDATE和DELETE 语句时。
在 9.6 之前的版本中,这个参数也允许值archive
和hot_standby
。现在仍然接受这些值,但是它们会被映射到replica
。
ALTER SYSTEM SET wal_level = logical;
max_replication_slots
指定服务器可以支持的复制槽最大数量。默认值为10。这个参数只能在服务器启动时设置。将它设置为一个比当前已有复制槽要少的值会阻碍服务器启动。此外,要允许使用复制槽, wal_level必须被设置为replica
或 更高。
ALTER SYSTEM SET max_replication_slots = 2;
三、Clickhouse 迁移
数据库引擎#
使用 PostgreSQL 数据库中的表创建 ClickHouse 数据库。首先,带有引擎 MaterializedPostgreSQL
的数据库创建 PostgreSQL 数据库的快照并加载所需的表。所需表可以包括来自指定数据库的任何模式子集的任何表子集。随着快照数据库引擎获取 LSN,一旦执行了表的初始转储 - 它就开始从 WAL 中提取更新。创建数据库后,PostgreSQL 数据库中新添加的表不会自动添加到复制中。它们必须通过 ATTACH TABLE db.table
查询手动添加。
复制是使用 PostgreSQL 逻辑复制协议实现的,该协议不允许复制 DDL,但允许知道是否发生了复制中断更改(列类型更改、添加/删除列)。检测到此类更改并根据表格停止接收更新。如果打开所需的设置,此类表可以在后台自动重新加载(可以从 22.1 开始使用)。目前最安全的方法是使用 ATTACH
/DETACH
查询来完全重新加载表。如果 DDL 不中断复制(例如,重命名列),表仍将接收更新(插入按位置完成)。
1、开启迁移引擎
SET allow_experimental_database_materialized_postgresql=1
2、创建数据库
CREATE DATABASE [IF NOT EXISTS] db_name [ON CLUSTER cluster]
ENGINE = MaterializedPostgreSQL('host:port', 'database', 'user', 'password') [SETTINGS ...]
Engine 参数
host:port
— PostgreSQL 服务器地址database
— PostgreSQL 数据库名称user
— PostgreSQL 用户名password
— PostgreSQL 用户密码
使用示例
CREATE DATABASE postgres_db
ENGINE = MaterializedPostgreSQL('localhost:5432', 'postgres_database', 'postgres_user', 'postgres_password')
SETTINGS materialized_postgresql_tables_list='table1,table2,table3',materialized_postgresql_allow_automatic_update = 1;
SHOW TABLES FROM postgres_db;
┌─name───┐
│ table1 │
└────────┘
SELECT * FROM postgres_db.table1;
设置
materialized_postgresql_tables_list
#
设置 PostgreSQL 数据库表的逗号分隔列表,将通过 [MaterializedPostgreSQL](/docs/en/engines/database-engines/materialized-postgresql) 数据库引擎进行复制。
默认值:空列表 — 表示将复制整个 PostgreSQL 数据库。
materialized_postgresql_schema
#
默认值:空字符串。 (使用默认模式)
materialized_postgresql_schema_list
#
默认值:空列表。 (使用默认模式)
materialized_postgresql_allow_automatic_update
#
不要在 22.1 版本之前使用此设置。
当检测到架构更改时,允许在后台重新加载表。 PostgreSQL 端的 DDL 查询不会通过 ClickHouse [MaterializedPostgreSQL](/docs/en/engines/database-engines/materialized-postgresql) 引擎进行复制,因为 PostgreSQL 逻辑复制协议不允许这样做,但 DDL 更改的事实是 交易检测。 在这种情况下,默认行为是在检测到 DDL 后停止复制这些表。 但是,如果启用此设置,则不会停止这些表的复制,而是通过数据库快照在后台重新加载它们,而不会丢失数据,并且将为它们继续复制。
可能的值:
- 0 — 当检测到架构更改时,表不会在后台自动更新。
- 1 — 当检测到架构更改时,表会在后台自动更新。
默认值:“0”。
materialized_postgresql_max_block_size
#
设置在将数据刷新到 PostgreSQL 数据库表之前在内存中收集的行数。
可能的值:
- 正整数。
默认值:`65536`。
materialized_postgresql_replication_slot
#
用户创建的复制槽。 必须与 `materialized_postgresql_snapshot` 一起使用。
materialized_postgresql_snapshot
#
标识快照的文本字符串,将从中执行 [PostgreSQL 表的初始转储](/docs/en/engines/database-engines/materialized-postgresql)。 必须与 `materialized_postgresql_replication_slot` 一起使用。
``` sql
CREATE DATABASE database1
ENGINE = MaterializedPostgreSQL('postgres1:5432', 'postgres_database', 'postgres_user', 'postgres_password')
SETTINGS materialized_postgresql_tables_list = 'table1,table2,table3';
SELECT * FROM database1.table1;
```
如有必要,可以使用 DDL 查询更改设置。 但是不可能更改设置 `materialized_postgresql_tables_list`。 要更新此设置中的表列表,请使用 `ATTACH TABLE` 查询。
``` sql
ALTER DATABASE postgres_database MODIFY SETTING materialized_postgresql_max_block_size = <new_size>;
```
动态添加新表到复制
MaterializedPostgreSQL
数据库创建后,它不会自动检测相应 PostgreSQL 数据库中的新表。 可以手动添加此类表:
ATTACH TABLE postgres_db.new_table;
警告
在 22.1 版本之前,将表添加到复制会留下一个未删除的临时复制槽(名为 {db_name}_ch_replication_slot_tmp
)。 如果在 22.1 之前的 ClickHouse 版本中附加表,请确保手动删除它(SELECT pg_drop_replication_slot('{db_name}_ch_replication_slot_tmp')
)。 否则磁盘使用量会增加。 此问题已在 22.1 中修复。
从复制中动态删除表
可以从复制中删除特定表:
DETACH TABLE postgres_db.table_to_remove;
表引擎#
使用 PostgreSQL 表的初始数据转储创建 ClickHouse 表并启动复制过程,即执行后台作业以应用在远程 PostgreSQL 数据库中的 PostgreSQL 表上发生的新更改。
如果需要多张表,强烈建议使用 MaterializedPostgreSQL 数据库引擎代替表引擎并使用materialized_postgresql_tables_list
设置,它指定要复制的表(也可以添加数据库 schema
)。在远程 PostgreSQL 数据库中的 CPU、更少的连接和更少的复制槽方面会好得多。
创建表
CREATE TABLE postgresql_db.postgresql_replica (key UInt64, value UInt64)
ENGINE = MaterializedPostgreSQL('localhost:5432', 'postgres_database', 'postgresql_replica', 'postgres_user', 'postgres_password')
PRIMARY KEY key;
Engine 参数
host:port
— PostgreSQL 服务器地址database
— PostgreSQL 数据库名称table
- PostgreSQL 表名user
— PostgreSQL 用户名password
— PostgreSQL 用户密码
要求
- wal_level 设置必须有一个值
logical
和max_replication_slots
参数必须至少有一个值2
在 PostgreSQL 配置文件中。 - 使用
MaterializedPostgreSQL
引擎的表必须有一个主键——与 PostgreSQL 表的副本标识索引(默认:主键)相同(参见 [副本标识索引的详细信息](https://clickhouse.com) /docs/en/engines/database-engines/materialized-postgresql#requirements))。 - 只允许使用数据库 Atomic。
虚拟列
创建表时不需要添加这些列。它们始终可以在 SELECT
查询中访问。 _version
列等于 WAL
中的 LSN
位置,因此它可能用于检查复制的最新程度。
CREATE TABLE postgresql_db.postgresql_replica (key UInt64, value UInt64)
ENGINE = MaterializedPostgreSQL('postgres1:5432', 'postgres_database', 'postgresql_replica', 'postgres_user', 'postgres_password')
PRIMARY KEY key;
SELECT key, value, _version FROM postgresql_db.postgresql_replica;
Clickhouse 实现 MaterializedPostgreSQL的更多相关文章
- ClickHouse(07)ClickHouse数据库引擎解析
目录 Atomic 建表语句 特性 Table UUID RENAME TABLES DROP/DETACH TABLES EXCHANGE TABLES ReplicatedMergeTree in ...
- ClickHouse 快速入门
ClickHouse 是什么 ClickHouse 是一个开源的面向联机分析处理(OLAP, On-Line Analytical Processing) 的列式存储数据库管理系统. 在一个 &quo ...
- 彪悍开源的分析数据库-ClickHouse
https://zhuanlan.zhihu.com/p/22165241 今天介绍一个来自俄罗斯的凶猛彪悍的分析数据库:ClickHouse,它是今年6月开源,俄语社区为主,好酒不怕巷子深. 本文内 ...
- 使用容器编排工具docker swarm安装clickhouse多机集群
1.首先需要安装docker最新版,docker 目前自带swarm容器编排工具 2.选中一台机器作为master,执行命令sudo docker swarm init [options] 3,再需 ...
- clickhouse的使用和技巧,仅个人
centos 安装clickhouse curl -s https://packagecloud.io/install/repositories/altinity/clickhouse/script. ...
- clickhouse修改时区
clickhouse时区设置 sudo vim /etc/clickhouse-server/config.xml <timezone>Asia/Shanghai</timezone ...
- Clickhouse v18编译记录
简介 ClickHouse是"战斗民族"俄罗斯搜索巨头Yandex公司开源的一个极具"战斗力"的实时数据分析数据库,是面向 OLAP 的分布式列式DBMS,圈内 ...
- clickhouse在Linux上的安装部署
$ sudo apt-get install clustershell #输入你的管理员密码 $ cd /etc/clustershell $ sudo gedit groups #在文件中添加如下内 ...
- ClickHouse之clickhouse-local
一直在慢慢的摸索clickhouse,之前是用rpm包安装的,没有发现clickhouse-local,最近在centos上面编译成功以后发现多了clickhouse-local,那么这个玩意是什么鬼 ...
随机推荐
- RocketMq 完整部署
目录 RocketMq 部署 环境 物理机部署 自定义日志目录 自定义参数和数据存放位置 服务启动 启动name server 启动broker 关停服务 尝试发送消息 常见报错 部署 rockerm ...
- opencv学习之基础
前段时间一直在钻研深度学习中的卷积神经网络,其中的预处理环节可以说非常关键,主要就是对图片和视频进行处理.而图像处理就涉及到图形学和底层技术细节,这是一个比较精深和专业的领域,假设我们要从头开始做起, ...
- Vue 中 watch 的一个坑
开发所用 Vue 版本 2.6.11 子组件 coma 中两个属性: props: { url: { type: String, default: '' }, oriurl:{ type: Strin ...
- 学习Java的第十五天——数学运算
学习内容:数学运算 1.三角函数运算 代码实现: public class 三角函数运算 { public static void main(String[] args) { // TODO 自动生成 ...
- Datax源码改造关键步骤记录
Datax源码改造关键步骤记录: 一.作业配置1.一个job配置:reader 和writer 的column 字段必须是所有表共有的:2.reader多张表,writer一个表时,所有reader的 ...
- LVS+keepalived高可用
1.keeplived相关 1.1工作原理 Keepalived 是一个基于VRRP协议来实现的LVS服务高可用方案,可以解决静态路由出现的单点故障问题. 在一个LVS服务集群中通常有主服务器(MAS ...
- 2.Tensor Shape《Pytorch神经网络高效入门教程》Deeplizard
,之后,我们张量和基础数据的形状酱油卷积运算来改变. 卷积改变了高度和宽度维度以及颜色通道的数量.
- 2021.06.12【NOIP提高B组】模拟 总结
T1 题目大意:有 \(n\) 个点,到点 \(i\) 可以获得 \(A_i\) ,同时消耗 \(B_i\) 若当前价值小于 \(B_i\) 则不能到,问从 \(P\) 开始,任一点结束后的最大值. ...
- Docker容器编译安装Redis
Docker容器编译安装Redis 1.创建容器 -i 交互模式 -d 后端运行 -h 容器的hostname --name 容器名 --network 网卡 --ip IP地址 -p 端口映射 -- ...
- Acwing 428
可以找到规律,将第 N 项的 N 对应的二进制表示,转换为以 k 为基底的数即可. N=1=1 ----> 1 ----> \(a^b\) N=2=2 ----> 10 ----&g ...