一、服务配置

已配置好gt_oneline_2,其它集群还需按照下面方式特殊配置

1、需要腾讯Oceanus同学在后端修改高途flink集群配置core-site.xml文件,增加如下配置。只能绑定一个chdfs环境,这边绑定的测试环境,线上环境需要改qcloud.object.storage.zk.address

<property>
<name>fs.AbstractFileSystem.ofs.impl</name>
<value>com.qcloud.chdfs.fs.CHDFSDelegateFSAdapter</value>
</property>
<property>
<name>fs.ofs.impl</name>
<value>com.qcloud.chdfs.fs.CHDFSHadoopFileSystemAdapter</value>
</property>
<property>
<name>fs.ofs.tmp.cache.dir</name>
<value>/tmp/chdfs/</value>
</property>
<property>
<name>fs.ofs.user.appid</name>
<value>1234</value>
</property>
<property>
<name>fs.ofs.bucket.region</name>
<value>ap-beijing</value>
</property>

2、chdfs产品挂载点调整

测试环境挂载点:gaotu-chdfs-test

挂载地址:chdfs产品查看地址

权限组增加Oceanus的信息,Oceanus伙伴提供vpc信息,chdfs伙伴王帅后端添加。

如:VpcId: 无权限 | 权限组Id: ag-1234

二、任务配置

可参考test_iceberg_2的V7版本,最精简

1、登录hadoop集群hive metastore节点,如测试环境127,获取以下配置文件

(1)krb认证文件:bdg_app.keytab

路径:/root/add_princals/certificate

(2)krb配置文件:krb5.conf

路径:/etc/krb5.conf

(3)hdfs配置:core-site.xml

路径:/usr/local/service/hadoop/etc/hadoop/core-site.xml

(4)hdfs配置:hdfs-site.xml

路径:/usr/local/service/hadoop/etc/hadoop/hdfs-site.xml

(5)hive配置:hive-site.xml

路径:/usr/local/service/hive/conf/hive-site.xml

(6)空配置:hivemetastore-site.xml

下载地址:https://cloud.tencent.com/document/product/849/55238

(6)空配置:hiveserver2-site.xml

下载地址同上:https://cloud.tencent.com/document/product/849/55238

2、配置文件打包到一起

jar cvf hdfs-bdg_app.jar krb5.conf bdg_app.keytab core-site.xml hdfs-site.xml hive-site.xml hivemetastore-site.xml hiveserver2-site.xml

3、特殊依赖jar下载

地址:https://cloud.tencent.com/document/product/849/53852

文件:flink-chdfs-hadoop-1.10.0-0.1.4.jar(改良后仅这一个文件即可,下图可忽略)

4、Oceanus依赖管理上传依赖信息(改良后就两个文件即可,测试阶段是四个)

flink-chdfs-hadoop-1.10.0-0.1.4.jar (V1),hdfs-bdg_app.jar (V2)

5、任务配置上面四个依赖,以及高级参数。线上需要替换值

pipeline.max-parallelism: 2048
security.kerberos.login.principal: bdg_app@EMR
security.kerberos.login.keytab: bdg_app.keytab
security.kerberos.login.conf: krb5.conf
containerized.taskmanager.env.HADOOP_USER_NAME: bdg_app
containerized.master.env.HADOOP_USER_NAME: bdg_app

6、任务配置信息

CREATE TABLE `test_mysql_metrices` (
id bigint
,metric_id STRING
,`version` int
,name_en STRING
,name_cn STRING
,biz_code int
,topic_code int
,procedure_code int
,create_time timestamp
,update_time timestamp
,isdel tinyint
,PRIMARY KEY (`id`) NOT ENFORCED -- 如果要同步的数据库表定义了主键, 则这里也需要定义
) WITH (
'connector' = 'mysql-cdc', -- 固定值 'mysql-cdc'
'hostname' = 'mysql地址', -- 数据库的 IP
'port' = '3306', -- 数据库的访问端口
'username' = 'user', -- 数据库访问的用户名(需要提供 SHOW DATABASES、REPLICATION SLAVE、REPLICATION CLIENT、SELECT 和 RELOAD 权限)
'password' = 'pass', -- 数据库访问的密码
-- 'scan.incremental.snapshot.enabled' = 'false' -- 如果 source 表没有设置 PRIMARY Key,需要启用该设置
'database-name' = 'umetric', -- 需要同步的数据库
'table-name' = 'metrices' -- 需要同步的数据表名
); CREATE TABLE `stock_basic_iceberg_sink` (
`id` bigint NOT NULL,
PRIMARY KEY(id) NOT ENFORCED
) WITH (
'connector' = 'iceberg',
'write.upsert.enabled'='true', -- 是否开启upsert
'catalog-type' = 'hive',
'catalog-name'='iceberg_catalog',
'catalog-database'='bdg_app',
'catalog-table'='test2',
-- Hive metastore 的 thrift URI,可以从hive-site.xml配置文件中获取,对应的Key为:hive-metastore-uris
'uri'='thrift://127.0.0.:7004',
'engine.hive.enabled' = 'true',
'format-version' = '2'
); insert into stock_basic_iceberg_sink select id from test_mysql_metrices;

同步工具-Oceanus打通mysql到Iceberg的更多相关文章

  1. 数据库同步工具HKROnline SyncNavigator SQL Server互同步MySQL

    需要联系我QQ:786211180 HKROnline SyncNavigator 是一款专业的 SQL Server, MySQL 数据库同步软件.它为您提供一种简单智能的方式完成复杂的数据库数据同 ...

  2. mysql对比表结构对比同步,sqlyog架构同步工具

    mysql对比表结构对比同步,sqlyog架构同步工具 对比后的结果示例: 执行后的结果示例: 点击:"另存为(S)" 按钮可以把更新sql导出来.

  3. MySQL表结构同步工具 mysql-schema-sync

    mysql-schema-sync 是一款使用go开发的.跨平台的.绿色无依赖的 MySQL 表结构自动同步工具.用于将线上(其他环境)数据库结构变化同步到测试(本地)环境! 可以解决多人开发,每人都 ...

  4. MySQL数据库同步工具的设计与实现

    一.背景 在测试过程中,对于不同的测试团队,出于不同的测试目的,我们可能会有多套测试环境.在产品版本迭代过程中,根据业务需求,会对数据库的结构进行一些修改,如:新增表.字段.索引,修改表.字段索引等操 ...

  5. 使用Canal作为mysql的数据同步工具

    一.Canal介绍 1.应用场景 在前面的统计分析功能中,我们采取了服务调用获取统计数据,这样耦合度高,效率相对较低,目前我采取另一种实现方式,通过实时同步数据库表的方式实现,例如我们要统计每天注册与 ...

  6. [svc]打通mysql主从同步

    MySQL数据库设置主从同步 主从同步的特点: 逻辑的 异步的 主从同步的作用 1.备份 2.读写分离 主从同步的步骤 准备环境 1, mysql版本一致 5.5以上 2, 主从数据库一致 主库mas ...

  7. Spark记录-阿里巴巴开源工具DataX数据同步工具使用

    1.官网下载 下载地址:https://github.com/alibaba/DataX DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.Oracle.SqlSe ...

  8. 袋鼠云研发手记 | 数栈·开源:Github上400+Star的硬核分布式同步工具FlinkX

    作为一家创新驱动的科技公司,袋鼠云每年研发投入达数千万,公司80%员工都是技术人员,袋鼠云产品家族包括企业级一站式数据中台PaaS数栈.交互式数据可视化大屏开发平台Easy[V]等产品也在迅速迭代.在 ...

  9. Bireme:一个 Greenplum数据仓库的增量同步工具

    https://hashdatainc.github.io/bireme/ Bireme 是一个 Greenplum / HashData 数据仓库的增量同步工具.目前支持 MySQL.Postgre ...

  10. 高可用数据同步方案-SqlServer迁移Mysql实战

    简介 随着业务量的上升,以前的架构已经不满足业务的发展,数据作为业务中最重要的一环,需要有更好的架构作为支撑.目前我司有sql server转mysql的需求,所以结合当前业务,我挑选了阿里云开源的一 ...

随机推荐

  1. 静态分析工具及使用总结(二)CheckStyle

    这里主要介绍三种开源的工具,PMD.CheckStyle和FindBugs,着重是在Ant里的调用,据说商业软件JTest也是著名的代码分析工具,哈哈,要花钱的没有用过. Checkstyle (ht ...

  2. 如何使用Python编写一个Lisp解释器

    原文出处: Peter Norvig   译文出处: jnjc(@jnjcc) 本文有两个目的: 一是讲述实现计算机语言解释器的通用方法,另外一点,着重展示如何使用Python来实现Lisp方言Sch ...

  3. Java实时多任务调度过程中的安全监控设计

    方浩波 (fanghb@eastcom.com)东方通信网络研究所 简介: 在一系列关联的多任务的实时环境中,如果有一个任务发生失败,可能导致所有任务产生连锁反应,从而造成调度失控的局面.特别是对于核 ...

  4. 基于rsync+sersync的服务器文件同步

    参考:https://github.com/wsgzao/sersync 原理 Synchronize files and folders between servers -using inotiy ...

  5. Ubuntu实现SSH外网连接内网(反向隧道)

    应用场景: 如果你有Linux云主机(腾讯.华为等),且公司有一台只有内网IP (或动态IP) 的Linux工作机:你计划在家里工作时,通过家里的电脑连接公司的工作机 (且不想使用类似Teamview ...

  6. Java基础面试:关键字与注释

    Java 中的关键字 什么是关键字 Java 关键字是 Java 语言中预先定义好的.具有特殊含义的标识符.这些标识符在程序中有固定的用途,不能用作变量名.方法名或类名.Java 中共有 53 个特殊 ...

  7. Java基础 —— 集合(一)

    集合(一) 数组和集合的区别 数组是固定长度的数据结构,而集合是动态的数据结构 数组可以包含基本数据类型和对象,集合只能包含对象 数组只能存放同一类型的数据,而集合可以蹲房不同类型的 数组可以直接访问 ...

  8. vue使用docxtemplater导出word

    安装 // 安装 docxtemplater npm install docxtemplater pizzip --save // 安装 jszip-utils npm install jszip-u ...

  9. .NET周刊【12月第3期 2024-12-15】

    国内文章 重磅推出 Sdcb Chats:一个全新的开源大语言模型前端 https://www.cnblogs.com/sdcb/p/18597030/sdcb-chats-intro Sdcb Ch ...

  10. 视频监控推流助手/极低延迟/支持N路批量多线程推流/264和265推流/监控转网页

    一.前言说明 搞视频监控开发除了基本的拉流以外,还有个需求是推流,需要将拉到的流重新推流到流媒体服务器,让流媒体服务做转发和负载均衡,这样其他地方只需要问流媒体服务器要视频流即可.为什么拉了又重新推呢 ...