Clickhouse副本及分片

副本

副本的目的主要是保障数据的高可用性，即使一台 ClickHouse 节点宕机，那么也可以从其他服务器获得相同的数据

配置副本

1. zookeeper集群准备

2. Clickhouse准备两个节点

Node1, Node2

在 Node1 的/etc/clickhouse-server/config.d 目录下创建一个名为 metrika.xml

的配置文件,内容如下：

注：也可以不创建外部文件，直接在 config.xml 中指定

vim /etc/clickhouse-server/config.d/metrika.xml

<?xml version="1.0"?>

<yandex>

    <zookeeper-servers>

        <node index="1">

            <host>node2</host>

            <port>2181</port>

        </node>

        <node index="2">

            <host>xxx</host>

            <port>2181</port>

        </node>

        <node index="3">

            <host>xxx</host>

            <port>2181</port>

        </node>

        </zookeeper-servers>

</yandex>

3. 同步到Node2

scp /etc/clickhouse-server/config.d/metrika.xml root@Node2:/etc/clickhouse-server/config.d/

4. 在 Node1 的/etc/clickhouse-server/config.xml 中增加

<zookeeper incl="zookeeper-servers" optional="true" />

<include_from>/etc/clickhouse-server/config.d/metrika.xml</include_from>

同步到node2

重启clickhouse:

sudo clickhouse restart

5. 在 Node1 和 Node2 上分别建表

create table t_order_rep7 (

id UInt32,

sku_id String,

total_amount Decimal(16,2),

create_time Datetime

) engine =ReplicatedMergeTree('/clickhouse/table/01/t_order_rep7','rep_fz_102')

partition by toYYYYMMDD(create_time)

primary key (id)

order by (id,sku_id);

create table t_order_rep7 (

id UInt32,

sku_id String,

total_amount Decimal(16,2),

create_time Datetime

) engine =ReplicatedMergeTree('/clickhouse/table/01/t_order_rep7','rep_fz_103')

partition by toYYYYMMDD(create_time)

primary key (id)

order by (id,sku_id);

参数解释：

ReplicatedMergeTree 中，

第一个参数是分片的 zk_path 一般按照：/clickhouse/table/{shard}/{table_name} 的格式写，如果只有一个分片就写 01 即可。

第二个参数是副本名称，相同的分片副本名称不能相同

7. 验证

node1上插入数据，然后在node2上执行select 验证,可以查询出结果，说明副本配置正确

分片

副本虽然能够提高数据的可用性，降低丢失风险，但是每台服务器实际上必须容纳全量数据，对数据的横向扩容没有解决。

要解决数据水平切分的问题，需要引入分片的概念。通过分片把一份完整的数据进行切分，不同的分片分布到不同的节点上，再通过 Distributed 表引擎把数据拼接起来一同使用。

ClickHouse 的集群是表级别的，实际企业中，大部分做了高可用，但是没有用分

片，避免降低查询性能以及操作集群的复杂性。

查看集群

show clusters;

在 Node01 上执行建表语句

会自动同步到 Node02 和 Node03 上

集群名字要和配置文件中的一致

分片和副本名称从配置文件的宏定义中获取

create table st_fz_order_mt_01 on cluster gmall_cluster (

               id UInt32,

               sku_id String,

               total_amount Decimal(16,2),

               create_time Datetime

               ) engine

               =ReplicatedMergeTree('/clickhouse/tables/{shard}/st_fz_order_mt_01','{replica}')

               partition by toYYYYMMDD(create_time)

               primary key (id)

               order by (id,sku_id);

在Node02和Node03上查看表是否创建成功

show tables;

在 Node02 上创建 Distribute 分布式表

create table st_fz_order_mt_all2 on cluster gmall_cluster

            (

            id UInt32,

            sku_id String,

            total_amount Decimal(16,2),

            create_time Datetime

            )engine = Distributed(gmall_cluster,default, st_fz_order_mt_01,hiveHash(sku_id));

参数含义：

Distributed（集群名称，库名，本地表名，分片键）

分片键必须是整型数字，所以用 hiveHash 函数转换，也可以 rand()

在 Node01 上插入测试数据

insert into st_order_mt_all2 values

(201,'sku_001',1000.00,'2020-06-01 12:00:00') ,

(202,'sku_002',2000.00,'2020-06-01 12:00:00'),

(203,'sku_004',2500.00,'2020-06-01 12:00:00'),

(204,'sku_002',2000.00,'2020-06-01 12:00:00'),

(205,'sku_003',600.00,'2020-06-02 12:00:00');

通过查询分布式表和本地表观察输出结果

1）分布式表

select * From st_fz_order_mt_all2;

SELECT *

FROM st_fz_order_mt_all2

Query id: d8b676e9-c119-4483-8ca2-f0b5cd150a61

┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐

│ 202 │ sku_002 │         2000 │ 2020-06-01 12:00:00 │

│ 203 │ sku_004 │         2500 │ 2020-06-01 12:00:00 │

│ 204 │ sku_002 │         2000 │ 2020-06-01 12:00:00 │

└─────┴─────────┴──────────────┴─────────────────────┘

┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐

│ 205 │ sku_003 │          600 │ 2020-06-02 12:00:00 │

└─────┴─────────┴──────────────┴─────────────────────┘

┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐

│ 201 │ sku_001 │         1000 │ 2020-06-01 12:00:00 │

└─────┴─────────┴──────────────┴─────────────────────┘

（2）本地表

Node1:

 select * From st_fz_order_mt_01;

SELECT *

FROM st_fz_order_mt_01

Query id: ddcb5176-e443-4253-9877-57fec8f57311

┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐

│ 202 │ sku_002 │         2000 │ 2020-06-01 12:00:00 │

│ 203 │ sku_004 │         2500 │ 2020-06-01 12:00:00 │

│ 204 │ sku_002 │         2000 │ 2020-06-01 12:00:00 │

└─────┴─────────┴──────────────┴─────────────────────┘

3 rows in set. Elapsed: 0.002 sec.

Node2:

Node3:

date1001 :) select * From st_fz_order_mt_01;

SELECT *

FROM st_fz_order_mt_01

Query id: 7a336004-7040-4098-948e-1e7c5d983edb

┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐

│ 205 │ sku_003 │          600 │ 2020-06-02 12:00:00 │

└─────┴─────────┴──────────────┴─────────────────────┘

┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐

│ 201 │ sku_001 │         1000 │ 2020-06-01 12:00:00 │

└─────┴─────────┴──────────────┴─────────────────────┘

2 rows in set. Elapsed: 0.002 sec.

数据分布在Node1和Node3两个节点上

Clickhouse副本及分片的更多相关文章

列式数据库~clickhouse 副本集架构的搭建
clickhouse 搭建副本集一原理: 1 依赖ZK,ZK的基础上,ZK存储数据库元数据 2 使用复制表引擎创建复制表,包括ZK路径和副本名,相同ZK路径的表可以相互复制 3 复制表本身拥 ...
Mongodb3.0.6副本集+分片学习笔记
一.使用问题记录 1. mongodb3.0.6使用mongostat参数 >./mongostat -h 127.0.0.1:27017 -u root -p 123456 /authenti ...
搭建mongodb集群（副本集+分片）
搭建mongodb集群(副本集+分片) 转载自:http://blog.csdn.net/bluejoe2000/article/details/41323051 完整的搭建mongodb集群(副本集 ...
mongoDB副本集+分片集群
首先搭建一个副本集(三台机器) 主,从,仲裁然后搭建分片shard1,在每台机子上启用shard1(这里就写一个分片吧!!如果写多了怕初学者会混乱,先写一个.然后可以按照同样的方法写第二个,第三个) ...
MongoDB 副本集+分片认证方式搭建
MongoDB 副本集+分片认证方式搭建参考资料: https://www.cnblogs.com/ityouknow/p/7344005.htmlhttps://jorwen-fang.itey ...
Mongodb分布式集群副本集+分片
目录简介 1. 副本集 1.1 MongoDB选举的原理 1.2 复制过程 2. 分片技术 2.1 角色 2.2 分片的片键 2.3 片键分类环境介绍 1.获取软件包 2.创建路由.配置.分片等的 ...
【大数据面试】ClickHouse：介绍、特点、数据类型、引擎、操作、副本、分片
1.介绍开源的列式存储数据库(DBMS),由C++编写,用于在线分析处理查询(OLAP) 可以通过SQL查询实时生成分析数据报告解释: DBMS:数据库管理系统常见的列式存储数据库:Hbase. ...
【实时数仓】Day05-ClickHouse：入门、安装、数据类型、表引擎、SQL操作、副本、分片集群
一.ClickHouse入门 1.介绍是一个开源的列式存储数据库(DBMS) 使用C++编写用于在线分析查询(OLAP) 能够使用SQL查询实时生成分析数据报告 2.特点 (1)列式存储比较: ...
MongoDB 高可用集群副本集+分片搭建
MongoDB 高可用集群搭建一.架构概况 192.168.150.129192.168.150.130192.168.150.131 参考文档:https://www.cnblogs.com/va ...
Mongodb 副本集+分片
mongodb的分片功能是建立在副本集之上的,所以首先我们尝试着配置副本集. docker启动3个已经安装好mongo的镜像 # docker run -idt --name mongodb_01 m ...

随机推荐

Linux驱动|rtc-hym8563移植笔记
本文基于瑞芯微rk3568平台,关于该平台快速入手操作,大家可以参考以下文章: <瑞芯微rk356x板子快速上手> 0.什么是rtc-hym8563? RTC:实时时钟的缩写是(Real_ ...
vue打包项目版本号自加
原因项目每次打包后都需要改动项目版本号,这个改动每次都需要在package.json中修改version,比较麻烦,到底有没有一种打包后版本号自加的办法. 方案版本号自加其实可以使用fs修改文件来 ...
Angular 18+ 高级教程 – Component 组件の Template Binding Syntax
前言这篇介绍一些基本的 Angular 模板语法. 参考 Docs – Understanding binding Render.Event Listening and DOM Manipulati ...
JavaScript – Proxy
参考阮一峰 – Proxy 介绍和使用 Proxy 的作用是代理对象, 消费者不直接使用对象, 而是使用代理对象. 一般上做代理的目的就是想拦截对象访问做一些别的事情. 比如当对象改变以后, 同步 ...
5G网元功能与接口
5G网元功能与接口 5G移动通信整体网络架构 5G网络功能之间的信息交互可以基于两种方式表示:其一为基于服务表示:其二为基于点对点表示.实时部署时,也可以采用两种方式相结合的表示方式. 并不是所有的接 ...
logisim学习感想（持续更新）
状态机类型存在两种类型的状态机,分别为mealy型状态机和moore型状态机,在实验中,二者的大体实现如下: 其中从输入到输出的连线只有mealy状态机才有,而moore型则无此线. 区分两种类型的 ...
uart loglevel和pr_debug的区别
pr_debug 是 Linux 内核中用于打印调试信息的宏,它的行为会根据编译时的配置有所不同.如果定义了 CONFIG_DYNAMIC_DEBUG 配置选项,pr_debug 会扩展为 dynam ...
Linux调度器：进程优先级
一.前言本文主要描述的是进程优先级这个概念.从用户空间来看,进程优先级就是nice value和scheduling priority,对应到内核,有静态优先级.realtime优先级.归一化优先级 ...
「模拟赛」A 层多校联训 4（卖品：CTH）
双倒一啦! 感觉这次最大的错误就是没看 T2.(本质原因还是时间浪费的太多了) 赛时记录在闲话啦 accoder 多校比赛链接 02 表示法唐诗题!考高精的人都\(**\),输出深度优先搜索解决.高 ...
docker对的tomcat、mysql、redis、nginx的安装
本章篇章主要讲解了docker对常用软件的安装说明总体步骤:搜索镜像.拉取镜像.查看镜像.启动镜像.停止容器.移除容器 tomcat docker seacher tomcat//也可以在docke ...

Clickhouse副本及分片

副本

配置副本

分片

Clickhouse副本及分片的更多相关文章

随机推荐

热门专题