目录

异常现象:

1. clickhouse的异常日志

2. 追踪对应节点的zookeeper日志

使用clickhouse-keeper代替 zookeeper的步骤:

1: 准备 clickhouse-keeper的配置文件

1.1- 设置通信地址,以便对外通信

1.2-  在config.xml中的 zookeeper配置 clickhouse-keeper的地址,keeper的属性, 端口,存放地址等。

a. 检查端口是否被占用

b. 设置 clickhouse-keeper的地址,每个节点内容一致

c. 设置clickhouse-keeper的server_id 和clickhouse-server通信端口 9444

2:备份 clickhouse-server的配置文件和数据,以及zookeeper的元数据。(预防升级失败需要回滚)

a.  clickhouse的数据,在config.xml

b.  zookeeper的数据:  在zoo.cfg,数据目录。

3:升级clickhouse。( 包含了clickhouse-server,clickhouse-common, clickhouse-keeper和clickhouse-keeper-converter )

4: 迁移zk的元数据到 clickhouse-keeper

a- 停止所有的zk 节点。

b- 建议 启停zk的leader,以便强制 复制一份 一致性的快照。

c- 运行  clickhouse-keeper-converter , 生成snapshot

e- 单独启动clickhouse-keeper

5- 重启 clickhouse

6- 验证是否clickhouse-keeper是否正常运行

7- 验证clickhouse是否正常运行

在重启clickhouse时可能遇到认证问题


背景:clickhouse分布式表使用zookeeper作为元数据的存储,客户端每次读写分布式表都会读写zookeeper。 zookeeper是个小型的日志文件系统,在大范围读写时会进入只读模式

clickhouse官方为了解决这个,自己开发了clickhouse-keeper来代替。在21.8版本开始引入,21.12 featrue开发完毕,22.05不依赖系统库。

据官网自己说,目前22.5版的写性能和zookeeper相当,读的性能比zookeeper好。

异常现象:

1. clickhouse的异常日志

可以看到说socket和zookeeer连接不上 xxx.xxx.xxx.xxx:2181)


  1. 2022.04.01 17:11:01.452465 [ 428517 ] {} <Error> void Coordination::ZooKeeper::sendThread(): Code: 210, e.displayText() = DB::NetException: I/O error: 23: Can't create epoll queue, while writing to socket (20.20.20.34:2181), Stack trace (when copying this message, always include the lines below):
  2. 1. DB::Exception::Exception(std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&, int, bool) @ 0x8f9b87a in /usr/lib/debug/.build-id/b1/6d23354750e4d6ff9887c2b4f856f045d62da0.debug
  3. 2. DB::WriteBufferFromPocoSocket::nextImpl() @ 0x100764a0 in /usr/lib/debug/.build-id/b1/6d23354750e4d6ff9887c2b4f856f045d62da0.debug

2. 追踪对应节点的zookeeper日志

看到 zookeeper进入了只读模式(r-o mode)


  1. 2022-04-01 07:21:14,189 [myid:3] - INFO [PurgeTask:FileTxnSnapLog@124] - zookeeper.snapshot.trust.empty : false
  2. 2022-04-01 07:21:14,191 [myid:3] - INFO [PurgeTask:DatadirCleanupManager$PurgeTask@145] - Purge task completed.
  3. 2022-04-01 17:07:55,961 [myid:3] - INFO [SessionTracker:ZooKeeperServer@628] - Expiring session 0x31056da7a8a0000, timeout of 30000ms exceeded
  4. 2022-04-01 17:07:55,962 [myid:3] - INFO [RequestThrottler:QuorumZooKeeperServer@163] - Submitting global closeSession request for session 0x31056da7a8a0000
  5. 2022-04-01 17:10:23,523 [myid:3] - WARN [NIOWorkerThread-75:ZooKeeperServer@1411] - Connection request from old client /20.20.20.46:62879; will be dropped if server is in r-o mode
  6. 2022-04-01 17:10:23,534 [myid:3] - INFO [CommitProcessor:3:LeaderSessionTracker@104] - Committing global session 0x31056da7a8a0001
  7. 2022-04-01 17:11:01,453 [myid:3] - WARN [NIOWorkerThread-20:NIOServerCnxn@371] - Unexpected exception
  8. EndOfStreamException: Unable to read additional data from client, it probably closed the socket: address = /20.20.20.46:62879, session = 0x31056da7a8a0001
  9. at org.apache.zookeeper.server.NIOServerCnxn.handleFailedRead(NIOServerCnxn.java:170)
  10. at org.apache.zookeeper.server.NIOServerCnxn.doIO(NIOServerCnxn.java:333)
  11. at org.apache.zookeeper.server.NIOServerCnxnFactory$IOWorkRequest.doWork(NIOServerCnxnFactory.java:508)
  12. at org.apache.zookeeper.server.WorkerService$ScheduledWorkRequest.run(WorkerService.java:154)
  13. at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
  14. at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
  15. at java.lang.Thread.run(Thread.java:748)

使用clickhouse-keeper代替 zookeeper的步骤:

1- 准备 clickhouse-keeper的配置文件 (config.xml)
2- 备份 clickhouse-server的配置文件和数据,以及zookeeper的元数据
3- 下载 clickhouse-keeper-converter (集成在clickhouse中了)

4- 迁移以前zookeeper元数据到clickhouse-keeper

a. 停止所有zk节点
    b. 找到zk leader节点
    c. 重启zk leader节点,并再次停止(这一步是为了让leader节点生成一份snapshot)
    d. 运行clickhouse-keeper-converter,生成keeper的snapshot文件
    e. 启动keeper, 使其加载上一步中的snapshot

5- 重启clickhouse-server


1: 准备 clickhouse-keeper的配置文件

keeper在clickhousenode上的配置    config.xml

1.1- 设置通信地址,以便对外通信

<listen_host>0.0.0.0</listen_host>

1.2-  在config.xml中的 zookeeper配置 clickhouse-keeper的地址,keeper的属性, 端口,存放地址等。

a. 检查端口是否被占用

假设keeper的端口是9181,与server通信接口为9444


  1. netstat -anp | grep 9181 
  2. netstat -anp | grep 9444

b. 设置 clickhouse-keeper的地址,每个节点内容一致


  1. <zookeeper>
  2.         <node>
  3.             <host>clickhouse-node01</host>
  4.             <port>9181</port>
  5.         </node>
  6.         <node>
  7.             <host>clickhouse-node02</host>
  8.             <port>9181</port>
  9.         </node>
  10.         <node>
  11.             <host>clickhouse-node03</host>
  12.             <port>9181</port>
  13.         </node>
  14.     </zookeeper>

c. 设置clickhouse-keeper的server_id 和clickhouse-server通信端口 9444

每个节点的server_id要确保唯一,不能和其他节点重复 , keeper_server中的server_id是要和配置raft协议集群时命名的一致。

例如:

在 clickhouse-node01上的配置, <server_id>1</server_id>

在clickhouse_node02上的配置,  <server_id>2</server_id>


  1. <keeper_server>
  2.     <tcp_port>9181</tcp_port>
  3.     <server_id>1</server_id>
  4.     <log_storage_path>/var/lib/clickhouse/coordination/log</log_storage_path>
  5.     <snapshot_storage_path>/var/lib/clickhouse/coordination/snapshots</snapshot_storage_path>
  6.     <coordination_settings>
  7.         <operation_timeout_ms>10000</operation_timeout_ms>
  8.         <session_timeout_ms>30000</session_timeout_ms>
  9.         <raft_logs_level>warning</raft_logs_level>
  10.     </coordination_settings>
  11.     <raft_configuration>
  12.         <server>
  13.             <id>1</id>
  14.             <hostname>clickhouse-node01</hostname>
  15.             <port>9444</port>
  16.         </server>
  17.         <server>
  18.             <id>2</id>
  19.             <hostname>clickhouse-node02</hostname>
  20.             <port>9444</port>
  21.         </server>
  22.         <server>
  23.             <id>3</id>
  24.             <hostname>clickhouse-node03</hostname>
  25.             <port>9444</port>
  26.         </server>
  27.     </raft_configuration>
  28. </keeper_server>

2:备份 clickhouse-server的配置文件和数据,以及zookeeper的元数据。(预防升级失败需要回滚)

a.  clickhouse的数据,在config.xml

<path>/data/1/clickhouse</path>

b.  zookeeper的数据:  在zoo.cfg,数据目录。

dataDir=/data/1/zookeeper/data    (存储snap数据)
     dataLogDir=/data/1/zookeeper/logs   (存储 transation命令)

3:升级clickhouse。( 包含了clickhouse-server,clickhouse-common, clickhouse-keeper和clickhouse-keeper-converter )

以先卸载,再安装的升级方法为例


  1. ## 卸载
  2. yum remove -y clickhouse-client.noarch clickhouse-common-static.x86_64 clickhouse-common-static-dbg.x86_64 clickhouse-server.noarch
  3. ## 下载安装
  4. yum install -y clickhouse-server-22.8.4.7-1.x86_64 clickhouse-client-22.8.4.7-1.x86_64 clickhouse-common-static-22.8.4.7-1.x86_64  clickhouse-common-static-dbg-22.8.4.7-1.x86_64

4: 迁移zk的元数据到 clickhouse-keeper

a- 停止所有的zk 节点。

在所有的zk节点上 执行

 /usr/local/zookeeper/bin/zkServer.sh stop

b- 建议 启停zk的leader,以便强制 复制一份 一致性的快照。

查找leader节点, 在所有的节点上执行

/usr/local/zookeeper/bin/zkServer.sh stop


      在leader节点上 启停zookeeper


  1. /usr/local/zookeeper/bin/zkServer.sh start
  2. /usr/local/zookeeper/bin/zkServer.sh stop

c- 运行  clickhouse-keeper-converter , 生成snapshot

clickhouse-keeper-converter --zookeeper-logs-dir /data/1/zookeeper/logs/version-2 --zookeeper-snapshots-dir /data/1/zookeeper/data/version-2 --output-dir /var/lib/clickhouse/coordination/snapshots

e- 单独启动clickhouse-keeper

如果server和keeper是安装在同一个节点,这步可以省略


  1. sudo -su clickhouse
  2. clickhouse-keeper --config  /etc/clickhouse-server/config.xml

5- 重启 clickhouse


  1. /usr/bin/clickhouse-server stop
  2. /usr/bin/clickhouse-server start --config=/etc/clickhouse-server/config.xml

6- 验证是否clickhouse-keeper是否正常运行

 echo ruok | nc localhost 9181; echo

期望看到:imok

7- 验证clickhouse是否正常运行

连接客户端,创建一张分布式表,查看数据是否能正常操作分布式表(CRUD)。

 select * from system.clusters;


在重启clickhouse时可能遇到认证问题

1- 异常log

<Error> CertificateReloader: Cannot obtain modification time for certificate file /etc/clickhouse-server/server.crt, skipping update. errno: 2, strerror: No such file or directory

解决方法:在所有的clickhouse-server节点上执行

openssl req -subj "/CN=localhost" -new -newkey rsa:2048 -days 365 -nodes -x509 -keyout /etc/clickhouse-server/server.key -out /etc/clickhouse-server/server.crt

2- 异常log

Error opening Diffie-Hellman parameters file /etc/clickhouse-server/dhparam.pem

解决方法:  在所有的clickhouse-server节点上执行

openssl dhparam -out /etc/clickhouse-server/dhparam.pem 4096

clickhouse既然已经支持多zk集群,是否可以让ck同时访问zk集群和keeper集群?

答: 不可以,官网明确说了


参考文档:

ClickHouse Keeper | ClickHouse Docs
Configuring ClickHouse Keeper (clickhouse-keeper) | ClickHouse Docs

文章知识点与官方知识档案匹配,可进一步学习相关知识
云原生入门技能树首页概览14382 人正在系统学习中

[转帖]clickhouse使用clickhouse-keeper代替zookeeper的更多相关文章

  1. ClickHouse(07)ClickHouse数据库引擎解析

    目录 Atomic 建表语句 特性 Table UUID RENAME TABLES DROP/DETACH TABLES EXCHANGE TABLES ReplicatedMergeTree in ...

  2. ClickHouse(02)ClickHouse架构设计介绍概述与ClickHouse数据分片设计

    ClickHouse核心架构设计是怎么样的?ClickHouse核心架构模块分为两个部分:ClickHouse执行过程架构和ClickHouse数据存储架构,下面分别详细介绍. ClickHouse执 ...

  3. ClickHouse(03)ClickHouse怎么安装和部署

    本文会介绍如何安装和部署ClickHouse,官方推荐的几种安装模式,以及安装之后如何启动,ClickHouse集群如何配置等. 简单来说,ClickHouse的搭建流程如下: 环境检查,环境依赖安装 ...

  4. ClickHouse(05)ClickHouse数据类型详解

    ClickHouse属于分析型数据库,ClickHouse提供了许多数据类型,它们可以划分为基础类型.复合类型和特殊类型.其中基础类型使ClickHouse具备了描述数据的基本能力,而另外两种类型则使 ...

  5. ClickHouse(10)ClickHouse合并树MergeTree家族表引擎之ReplacingMergeTree详细解析

    目录 建表语法 数据处理策略 资料分享 参考文章 MergeTree拥有主键,但是它的主键却没有唯一键的约束.这意味着即便多行数据的主键相同,它们还是能够被正常写入.在某些使用场合,用户并不希望数据表 ...

  6. ClickHouse(11)ClickHouse合并树MergeTree家族表引擎之SummingMergeTree详细解析

    目录 建表语法 数据处理 汇总的通用规则 AggregateFunction 列中的汇总 嵌套结构数据的处理 资料分享 参考文章 SummingMergeTree引擎继承自MergeTree.区别在于 ...

  7. ClickHouse(12)ClickHouse合并树MergeTree家族表引擎之AggregatingMergeTree详细解析

    目录 建表语法 查询和插入数据 数据处理逻辑 ClickHouse相关资料分享 AggregatingMergeTree引擎继承自 MergeTree,并改变了数据片段的合并逻辑.ClickHouse ...

  8. ClickHouse(13)ClickHouse合并树MergeTree家族表引擎之CollapsingMergeTree详细解析

    目录 建表 折叠 数据 算法 资料分享 参考文章 该引擎继承于MergeTree,并在数据块合并算法中添加了折叠行的逻辑.CollapsingMergeTree会异步的删除(折叠)这些除了特定列Sig ...

  9. Sentry 后端云原生中间件实践 ClickHouse PaaS ,为 Snuba 事件分析引擎提供动力

    目录(脑图) ClickHouse PaaS 云原生多租户平台(Altinity.Cloud) 官网:https://altinity.cloud PaaS 架构概览 设计一个拥有云原生编排能力.支持 ...

  10. 使用容器编排工具docker swarm安装clickhouse多机集群

    1.首先需要安装docker最新版,docker 目前自带swarm容器编排工具 2.选中一台机器作为master,执行命令sudo docker  swarm init [options] 3,再需 ...

随机推荐

  1. vue3 + element-plus 的 upload + axios + django 文件上传并保存

    之前在网上搜了好多教程,一直没有找到合适自己的,要么只有前端部分没有后端,要么就是写的不是很明白.所以还得靠自己摸索出来后,来此记录一下整个过程. 其实就是不要用默认的 action,要手动实现上传方 ...

  2. 文心一言 VS 讯飞星火 VS chatgpt (53)-- 算法导论6.2 5题

    五.MAX-HEAPIFY的代码效率较高,但第 10 行中的递归调用可能例外,它可能使某些编译器产生低效的代码.请用循环控制结构取代递归,重写 MAX-HEAPIFY代码. 文心一言: 以下是使用循环 ...

  3. 5种Python使用定时调度任务的方式

    摘要:Python 有几种方法可以定时调度一个任务,这就是我们将在本文中学习的内容. 本文分享自华为云社区<Python中使用定时调度任务(Schedule Jobs)的5种方式)>,作者 ...

  4. 当物联网遇上云原生:K8s向边缘计算渗透中

    摘要:K8s正在向边缘计算渗透,它为边缘侧的应用部署提供了便利性,在一定程度上转变了边缘应用与硬件之间的关系,将两者的耦合度降低. 本文分享自华为云社区<云原生在物联网中的应用[拜托了,物联网! ...

  5. 上手测试GaussDB(for Redis) 和开源 Redis,只为推荐质优价廉的Redis

    摘要:一文带你全方位测评 GaussDB(for Redis) 和开源 Redis. 本文分享自华为云社区<程序员硬核测评:全方位测评 GaussDB(for Redis) 和开源 Redis& ...

  6. Centos7 怎么永久关闭防火墙

    1.连接到centos主机,然后输入命令"systemctl status firewalld.service"并按下回车键. 2.然后在下方可以查看得到 " activ ...

  7. Spark面试题(六)——Spark资源调优

    Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)--数据倾斜调优 Spark面试题(六)--Spark资源调 ...

  8. C# 32位程序申请大内存

    VS2015 项目-->属性-->生成事件 在"后期生成事件命令行"中输入: cd /d $(DevEnvDir) cd.. cd.. cd VC\bin editbi ...

  9. JS 实现 HashMap

    HashMap代码(这种实现方式是错误的,错误原因:代码中_map._length变量是HashMap的所有实例共用的): /** * HashMap * 2021年09月09日 */ (functi ...

  10. [kuangbin带你飞]专题十二 基础DP1 题解+总结

    kuangbin带你飞:点击进入新世界 文章目录 目录 文章目录 1.Max Sum Plus Plus 2.Ignatius and the Princess IV 3.Monkey and Ban ...