手把手教你：将 ClickHouse 集群迁至云上

前言

随着云上 ClickHouse 服务完善，越来越多的用户将自建 ClickHouse 服务迁移至云上。对于不同数据规模，我们选择不同的方案:

对于数据量比较小的表，通常小于10GB 情况下，可以将数据导出为 CSV 格式，在云上集群重新写入数据；
使用 clickhouse 发行版自带工具 clickhouse-copier 来完成。

本文详解 clickhouse-copier 完成跨 ClickHouse 集群数据迁移(当然也适用于用户集群内部数据不同表间数据迁移)。

一、Zookeeper 集群准备

如果已经有 Zookeeper 集群，请忽略本章节。

由于 clickhouse-copier 需要 Zookeeper 存储数据迁移任务信息，需要部署一个 Zookeeper 集群。

Zookeeper 集群到源 ClickHouse 集群与目标 ClickHouse 集群之间的网络是正常的。

在本文中，我们部署一个单节点的 Zookeeper 集群。

步骤1: 准备可执行文件

$ wget http://apache.is.co.za/zookeeper/zookeeper-3.6.1/apache-zookeeper-3.6.1.tar.gz

$ tar -xvf zookeeper-3.6.1.tar.gz

$ chown hadoop:hadoop -R  zookeeper-3.6.1

步骤2：切换到 hadoop 账号

su hadoop

步骤3：准备配置文件 conf/zoo.cfg，填写配置，举例如下：

tickTime=2000

dataDir=/var/data/zookeepe

clientPort=2181

步骤4：增加 myid 文件

echo 1 > /var/data/zookeeper/myid

步骤5：启动 Zookeeper 进程

$ bin/zkServer.sh start

后续，我们可以用该 Zookeeper 存储数据迁移任务信息。

二、定义迁移任务

在任务迁移数据前，需要定义迁移任务。迁移任务信息定义在 xml 文件中。具体包含如下信息：

源集群，包含数据分片信息
目的集群，包含数据分片信息
执行数据迁移任务的线程数量
定义待迁移的表信息，有 tables 字段指定，包括：

- 数据源集群名称，由 cluster_pull 指定

- 数据源数据库名称，由 database_pull 指定

- 数据源表名称，由 table_pull 指定

- 目的集群名称，由 cluster_push 指定

- 目的数据库名称，由 database_push 指定

- 目的表名称，由 table_push 指定

- 目的表引擎定义，由 engine 指定

- 待迁移的 partition 列表，由 enabled_partitions 指定。未指定，则全表迁移

如果目标集群数据库不存在，则不会自动创建。故迁移数据前，确保目标集群数据库存在。源表和目标表的 Schema 相同，表引擎可以不相同。

举例如下：

<yandex>

    <!-- Configuration of clusters as in an ordinary server config -->

    <remote_servers>

        <source_cluster>

            <shard>

                <internal_replication>false</internal_replication>

                    <replica>

                        <host>172.16.0.72</host>

                        <port>9000</port>

                    </replica>

            </shard>

        </source_cluster>

        <destination_cluster>

            <shard>

                <internal_replication>false</internal_replication>

                    <replica>

                        <host>172.16.0.115</host>

                        <port>9000</port>

                    </replica>

                    <replica>

                        <host>172.16.0.47</host>

                        <port>9000</port>

                    </replica>

            </shard>

            <shard>

                <internal_replication>false</internal_replication>

                    <replica>

                        <host>172.16.0.138</host>

                        <port>9000</port>

                    </replica>

                    <replica>

                        <host>172.16.0.49</host>

                        <port>9000</port>

                    </replica>

            </shard>

        </destination_cluster>

    </remote_servers>

    <!-- How many simultaneously active workers are possible. If you run more workers superfluous workers will sleep. -->

    <max_workers>8</max_workers>

    <!-- Setting used to fetch (pull) data from source cluster tables -->

    <settings_pull>

        <readonly>1</readonly>

    </settings_pull>

    <!-- Setting used to insert (push) data to destination cluster tables -->

    <settings_push>

        <readonly>0</readonly>

    </settings_push>

    <settings>

        <connect_timeout>300</connect_timeout>

        <!-- Sync insert is set forcibly, leave it here just in case. -->

        <insert_distributed_sync>1</insert_distributed_sync>

    </settings>

    <tables>

        <!-- A table task, copies one table. -->

        <table_lineorder>

            <!-- Source cluster name (from <remote_servers/> section) and tables in it that should be copied -->

            <cluster_pull>source_cluster</cluster_pull>

            <database_pull>default</database_pull>

            <table_pull>lineorder</table_pull>

            <!-- Destination cluster name and tables in which the data should be inserted -->

            <cluster_push>destination_cluster</cluster_push>

            <database_push>default</database_push>

            <table_push>lineorder_7</table_push>

            <engine>

            ENGINE=ReplicatedMergeTree('/clickhouse/tables/{shard}/lineorder_7','{replica}')

            PARTITION BY toYear(LO_ORDERDATE)

            ORDER BY (LO_ORDERDATE, LO_ORDERKEY)

            </engine>

            <!-- Sharding key used to insert data to destination cluster -->

            <sharding_key>rand()</sharding_key>

            <!-- Optional expression that filter data while pull them from source servers -->

            <!-- <where_condition></where_condition> -->

           <!--

            <enabled_partitions>

            </enabled_partitions>

           -->

        </table_lineorder>

    </tables>

</yandex>

准备完成配置文件后，在 Zookeeper 上准备路径，并将定义任务文件上传到 Zookeeper 中。假设配置文件为 task.xml , 执行如下指令：

$ bin/zkCli.sh create /clickhouse/copytasks ""

$ bin/zkCli.sh create /clickhouse/copytasks/task ""

$ bin/zkCli.sh create /clickhouse/copytasks/task/description "`cat ./task.xml`"

三、启动任务

定义好迁移任务后，就可以启动 clickhouse-copier 来迁移数据了。在此之前，需要准备配置文件, 配置文件中描述了 Zookeeper 地址，以及日志配置。举例如下：

<yandex>

    <logger>

        <level>trace</level>

        <size>100M</size>

        <count>3</count>

    </logger>

    <zookeeper>

        <node index="1">

            <host>172.16.0.139</host>

            <port>2181</port>

        </node>

    </zookeeper>

</yandex>

假设该文件命名为 config.xml

可以使用如下命令启动 clickhouse-copier:

 $ clickhouse-copie

  --config ./config.xml \

  --task-path /clickhouse/copytasks/task \

  --base-dir ./clickhouse \

其中，--task-path 指定数据迁移任务在 Zookeeper 上的路径，即第3节中创建的路径。需要注意的是，路径下必须包含 description 文件。

如果数据量比较多，可以部署多个 clickhouse-copier 并发执行迁移任务。

总结

clickhouse-copier 是 ClickHouse 发行版自带的工具，在稳定性可靠性上是有保证的。在使用过程中，需要注意的问题：

在迁移过程中，源集群的表需要停止写入；
在迁移过程中，占用源，目的集群网络带宽，需要仔细评估；
clickhouse-copier 提供了较多灵活性，包括数据分片算法，指定迁移表的 partitions
关注“腾讯云大数据”公众号，技术交流、最新活动、服务专享一站Get~

手把手教你：将 ClickHouse 集群迁至云上的更多相关文章

手把手教你搭建FastDFS集群（下）
手把手教你搭建FastDFS集群(下) 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/u0 ...
手把手教你搭建FastDFS集群（中）
手把手教你搭建FastDFS集群(中) 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/u0 ...
手把手教你搭建FastDFS集群（上）
手把手教你搭建FastDFS集群(上) 本文链接:https://blog.csdn.net/u012453843/article/details/68957209 FastDFS是一个 ...
手把手教你在 TKE 集群中实现简单的蓝绿发布和灰度发布
概述如何在腾讯云 Kubernetes 集群实现蓝绿发布和灰度发布?通常要向集群额外部署其它开源工具来实现,比如 Nginx Ingress,Traefik 等,或者让业务上 Service Mes ...
k8s 开船记-故障公告：自建 k8s 集群在阿里云上大翻船
非常非常抱歉,新年上班第一天, 在今天阿里云上气候突变情况下,由于我们开船技术差,在今天 10:15~12:00 左右的访问高峰,我们竟然把船给开翻了,造成近2个小时整个博客站点无法访问,由此给您带来 ...
手把手教你Linux服务器集群部署.net网站 - 让MVC网站运行起来
一.Linux下面安装需要软件我们这里需要安装的软件有: 1) Mono 3.2.8 : C#跨平台编译器,能使.Net运行与Linux下,目前.net 4.0可以完美运行在该平台下 2) ngin ...
手把手教你Linux服务器集群部署.net网站 - Linux系统安装和设置
在开源软件已成趋势化的今天,微软这‘老古董’也开始向开源方向发力,这对我们.NET开发者是极大的喜讯.而在开源软件中, Linux就是其中一个优秀的代表,几乎各行业和计算机有关的都有它的身影,其中一点 ...
一文读懂clickhouse集群监控
更多精彩内容,请关注微信公众号:后端技术小屋一文读懂clickhouse集群监控常言道,兵马未至,粮草先行,在clickhouse上生产环境之前,我们就得制定好相关的监控方案,包括metric采集 ...
ClickHouse(04)如何搭建ClickHouse集群
ClickHouse集群的搭建和部署和单机的部署是类似的,主要在于配置的不一致,如果需要了解ClickHouse单机的安装设部署,可以看看这篇文章,ClickHouse(03)ClickHouse怎么 ...

随机推荐

网页中审查元素（按F12）与查看网页源代码的区别
问题在验证目标系统是含有XSS漏洞,查看源代码,看不到插入的跨站脚本代码. 原理所谓查看源代码,就是别人服务器发送到浏览器的原封不动的代码. 审查元素时,你看到那些,在源代码中找不到的代码,是在浏 ...
bWAPP----HTML Injection - Reflected (GET)
HTML Injection - Reflected (GET) 进入界面, html标签注入这是核心代码 1 <div id="main"> 2 3 <h1& ...
应聘阿里，字节跳动，美团必须掌握的Spring IOC与工厂模式
Spring IOC与工厂模式 PS:本文内容较为硬核,需要对java的面向对象.反射.类加载器.泛型.properties.XML等基础知识有较深理解. (一)简单介绍在讲Spring IOC之前 ...
面试官：小伙子，你给我说一下Java Exception 和 Error 的区别吧？
前言昨天在整理粉丝给我私信的时候,发现了一个挺有意思的事情.是这样的,有一个粉丝朋友私信问我Java 的 Exception 和 Error 有什么区别呢?说他在面试的时候被问到这个问题卡壳了,最后 ...
js 时间日期与时间戳之间转换
1 1.将时间(2017-08-10)转换时间戳 2 var startTime = '2017-08-10'; 3 var startdate = new Date(Date.parse(start ...
推荐系统实践 0x07 基于邻域的算法（2）
基于邻域的算法(2) 上一篇我们讲了基于用户的协同过滤算法,基本流程就是寻找与目标用户兴趣相似的用户,按照他们对物品喜好的对目标用户进行推荐,其中哪些相似用户的评分要带上目标用户与相似用户的相似度作为 ...
python3时间函数
上一篇是生成测试报告的代码,如果重复运行测试报告名称相同会不停的覆盖,之前的测试报告也会丢失,无法追溯之前的问题.那么如何解决这个问题了呢? 首先想到的是用随机函数取随机名称,一旦生成的报告较多时,无 ...
Android source code compile error: “Try increasing heap size with java option '-Xmx<size>'”
export JACK_SERVER_VM_ARGUMENTS="-Dfile.encoding=UTF-8 -XX:+TieredCompilation -Xmx4g" ./pr ...
获取Win和Linux系统启动时间，类似uptime功能，用于判断是否修改过系统时间
目录前言测试代码 Win测试 Linux测试总结前言有时候需要判断系统是否有修改过时间,最简单的方法就是获取当前时间A,然后sleep X秒,然后获取时间B,如果时间B - 时间A ≠ ...
C++-codeblocks安装
2020-02-15 "Test_leetcode - Debug": The compiler's setup (GNU GCC Compiler) is invalid, so ...

手把手教你：将 ClickHouse 集群迁至云上

手把手教你：将 ClickHouse 集群迁至云上的更多相关文章

随机推荐

热门专题