MySQL 数据同步至 S3file，并接入 Hive 访问：SeaTunnel 实践指南

作者 | 番兄

如何借助 Apache SeaTunnel 将 MySQL 数据高效同步至 S3file？本文详述的步骤已全部通过测试验证，适用于构建基于对象存储的数据中台场景，具备部署灵活、扩展性强等优势，对有 MySQL 到 S3 数据集成需求的用户具有较高的参考价值，点赞、收藏学习吧！

第一步：创建Hive表

CREATE EXTERNAL TABLE ods_ekp.`ods_sys_notify_todo_bak` (

  `fd_id` STRING,

  `fd_app_name` STRING,

  `fd_model_name` STRING,

  `fd_model_id` STRING,

  `fd_key` STRING,

  `fd_parameter1` STRING,

  `fd_parameter2` STRING,

  `fd_create_time` TIMESTAMP,

  `fd_subject` STRING,

  `fd_type` INT,

  `fd_link` STRING,

  `fd_mobile_link` STRING,

  `fd_pad_link` STRING,

  `fd_bundle` STRING,

  `fd_replace_text` STRING,

  `fd_md5` STRING,

  `fd_del_flag` STRING,

  `fd_level` INT,

  `doc_creator_id` STRING,

  `fd_extend_content` STRING,

  `fd_lang` STRING,

  `fd_cate_name` STRING,

  `fd_cate_id` STRING,

  `fd_template_name` STRING,

  `fd_template_id` STRING,

  `fd_hierarchy_id` STRING

)

COMMENT 'sys_notify_todo_bak data'

PARTITIONED BY (

  `dctime` STRING COMMENT '分区年月日'

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001'

STORED AS PARQUET

LOCATION 's3a://seatunnel/doris/warehouse/ods_ekp/ods_sys_notify_todo_bak'

TBLPROPERTIES (

  'parquet.compression'='ZSTD'

);

注意：

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' 这个分隔符设置需要在后面SeaTunnel里面配置一样的，不然格式错误;
'parquet.compression'='ZSTD' 压缩算法也是需要在后面SeaTunnel里面配置一样的;
STORED AS PARQUET parquet文件格式，也是需要在后面SeaTunnel里面配置一样的.

是用之前把注释删除

env {

  job.mode = "BATCH"

  parallelism = 2

}

source {

    Jdbc {

        url = "jdbc:mysql://[服务器ip]:3306/[数据库]?serverTimezone=GMT%2b8&useUnicode=true&characterEncoding=UTF-8&rewriteBatchedStatements=true"

		driver = "com.mysql.cj.jdbc.Driver"

		user = "[账户]"

		password = "[密码]",

        # dctime要转换成字符串，因为hive建表的时候，这个字段是字符串；分区字段也要加到查询里面，后面SeaTunnel sink的时候会自动处理

		query = "select fd_id, fd_app_name, fd_model_name, fd_model_id, fd_key, fd_parameter1, fd_parameter2, fd_create_time, fd_subject, fd_type, fd_link, fd_mobile_link, fd_pad_link, fd_bundle, fd_replace_text, fd_md5, fd_del_flag, fd_level, doc_creator_id, fd_extend_content, fd_lang, fd_cate_name, fd_cate_id, fd_template_name, fd_template_id, fd_hierarchy_id, cast(date_format(fd_create_time, '%Y-%m-%d') as char) as dctime from sys_notify_todo_bak

	  }

}

transform {

}

sink {

    S3File {

      bucket = "s3a://seatunnel"

      fs.s3a.endpoint = "[minio服务器域名/ip]:9000"

      access_key = "[账户]"

      secret_key = "[密码]"

      fs.s3a.aws.credentials.provider="org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider"

      # 目录地址

      path = "/doris/warehouse/ods_ekp/ods_sys_notify_todo_bak"

      tmp_path = "/data/tmp/seatunnel"

      # 必须填写的不然会出现问题，因为本人的minio没有做ssl处理，所以要这么设置

      hadoop_s3_properties {

        "fs.s3a.connection.ssl.enabled" = "false"

        "fs.s3a.path.style.access" = "true"

      }

      # parquet文件格式

      file_format_type = "parquet"

      # 必须用\\代表\

      field_delimiter = "\\001"

      # parquet格式必须要加，否则会出问题

      parquet_avro_write_timestamp_as_int96 = true

      # 压缩算法

      compress_codec = "zstd"

      have_partition = true

      partition_by = ["dctime"]

      partition_dir_expression = "${k0}=${v0}"

      is_partition_field_write_in_file = false

      schema_save_mode = "CREATE_SCHEMA_WHEN_NOT_EXIST"

      data_save_mode="APPEND_DATA"

      custom_filename = true

      file_name_expression = "${transactionId}_${now}"

      filename_time_format = "yyyy.MM.dd"

  }

}

第二步：执行SeaTunnel同步，并在Hive查询里执行下列操作

-- 刷新物理目录分析

MSCK REPAIR TABLE ods_ekp.ods_sys_notify_todo_bak;

-- 查询hive表确认是否有数据

SELECT * from ods_ekp.ods_sys_notify_todo_bak limit 100;

第三步：创建Doris Hive catalog外部库

CREATE CATALOG hive PROPERTIES (

    'type'='hms',

    'hive.metastore.uris' = 'thrift://[hive metastore server的ip]:9083',

    "s3.endpoint" = "http://[minio服务器域名/ip]:9000",

    "s3.region" = "us-east-1",

    "s3.access_key" = "[账户]",

    "s3.secret_key" = "[密码]",

    "s3.connection.ssl.enabled" = "false",

    "use_path_style" = "true",

    "hive.version" = '2.1.1'

);

REFRESH CATALOG hive;

show databases from hive;

SELECT * from hive.ods_ekp.ods_sys_notify_todo_bak limit 100

说明：

因为本人用的CDH6.3.2版本，Hive是2.1.1版本，所以建立catalog的时候，需要指定"hive.version" = '2.1.1'。
因为本人设置的minio没有ssl，所以配置的时候需要加上"s3.connection.ssl.enabled" = "false"。
Minio用的是path风格，所以需要配置"use_path_style" = "true"。
SeaTunnel版本： 2.3.11
Doris版本：2.0.15

MySQL 数据同步至 S3file，并接入 Hive 访问：SeaTunnel 实践指南的更多相关文章

Mysql数据同步Elasticsearch方案总结
Mysql数据同步Elasticsearch方案总结 https://my.oschina.net/u/4000872/blog/2252620
几篇关于MySQL数据同步到Elasticsearch的文章---第一篇：Debezium实现Mysql到Elasticsearch高效实时同步
文章转载自: https://mp.weixin.qq.com/s?__biz=MzI2NDY1MTA3OQ==&mid=2247484358&idx=1&sn=3a78347 ...
MySQL数据同步交换
一.为了解决数据同步汇聚,数据分发,数据转换,数据维护等需求,TreeSoft将复杂的网状的同步链路变成了星型数据链路. TreeSoft作为中间传输载体负责连接各种数据源,为各种异构数据库之 ...
ElasticSearch5+logstash的logstash-input-jdbc实现mysql数据同步
在实现的路上遇到了各种坑,再次验证官方文档只能产考不能全信! ElasticSearch安装就不说了上一篇有说! 安装logstash 官方:https://www.elastic.co/guide/ ...
Elasticsearch和mysql数据同步（logstash）
1.版本介绍 Elasticsearch: https://www.elastic.co/products/elasticsearch 版本:2.4.0 Logstash: https://www ...
Elasticsearch和mysql数据同步（elasticsearch-jdbc）
1.介绍对mysql.oracle等数据库数据进行同步到ES有三种做法:一个是通过elasticsearch提供的API进行增删改查,一个就是通过中间件进行数据全量.增量的数据同步,另一个是通过收集 ...
Kettle ETL 来进行mysql 数据同步——试验环境搭建(表中无索引，无约束，无外键连接的情况)
今天试验了如何在Kettle的图形界面(Spoon)下面来整合来mysql 数据库中位于不同数据库中的数据表中的数据. 试验用的数据表是customers: 第三方的数据集下载地址是:http://w ...
Memcached与MySQL数据同步
1.介绍在生产环境中,我们经常使用MySQL作为应用的数据库.但是随着用户的增多数据量的增大,我们将会自然而然的选择Memcached作为缓存数据库,从而减小MySQL的压力.但是memcached ...
高可用的并行MySQL数据同步及分布式
首先聊聊MySQL的数据分布式,目前最为常用的就是Replication(复制)技术.基于此技术外延开来有很多中架构,分类归结为如下: 1.树状结构(Master,Backup-Master ...
转载：mysql数据同步redis
from: http://www.cnblogs.com/zhxilin/archive/2016/09/30/5923671.html 在服务端开发过程中,一般会使用MySQL等关系型数据库作为最终 ...

随机推荐

关于用nw(node-webkit)开发windows桌面软件遇到的问题，包括nw项目打包、win10 C盘读写文件没权限等问题的解决方法
原文: 关于用nw(node-webkit)开发windows桌面软件遇到的问题,包括nw项目打包.win10 C盘读写文件没权限等问题的解决方法 - 搜栈网 (seekstack.cn)https: ...
Linux系统中的软件管理
简介 Linux 系统中的软件管理体系主要包括软件包管理工具.软件仓库以及相关的依赖管理等方面.以下是详细介绍: 软件包管理工具 dpkg:Debian 及其衍生系统(如 Ubuntu)使用的底层软件 ...
解决多个if-else的方案
参考链接: 遇到大量if记住下面的口诀: 互斥条件表驱动嵌套条件校验链短路条件早return 零散条件可组合解释: 互斥条件,表示几个条件之间是冲突的,不可能同时达成的.比如说一个数字,它不可能 ...
windows oracle11gR2安装使用
安装 plsql安装 https://blog.csdn.net/li66934791/article/details/83856225 配置tns # tnsnames.ora Network Co ...
漏洞预警 | WordPress Plugin Radio Player SSRF漏洞
0x00 漏洞编号 CVE-2024-54385 0x01 危险等级高危 0x02 漏洞概述 WordPress插件Radio Player是一种简单而有效的解决方案,用于将实时流媒体音频添加到您的 ...
私人问卷收集系统-Surveyking问卷收集系统
前言但凡提及问卷收集系统,问卷星与腾讯问卷通常都为大家首选问卷调查系统. 担心数据安全,海量问卷管理不便,工作流创建困难?快速部署自有问卷调查系统开始你的问卷调查之旅. 无论是问卷调查,考试系统,公 ...
C#交换方法指针
被引用的dll是testDllFr.dll,其代码为: namespace testDLLFr { public class TestA { public static void TestAM() { ...
CF contest 1935 Round 932 (Div. 2) A-D题解
Codeforces Round 932 (Div. 2) A-D题解 Codeforces Round 932 (Div. 2) 绪言很菜,AB速度慢,卡在C,想DP,但是时间优化不下来,说服自己 ...
基于 A2A 协议的 LlamaIndex 文件聊天工作流
本示例展示了一个使用 LlamaIndex Workflows 构建并通过 A2A 协议公开的对话代理.它展示了文件上传和解析.支持多轮对话的对话交互.流式响应/更新以及内联引用. 源代码 a2a l ...
Go中的文件操作
文件操作读取文件的内容并显示在终端(带缓冲区的方式),使用os.Open,file.Close,bufio.NewReader(),reader.ReadString函数和方法. package m ...

MySQL 数据同步至 S3file，并接入 Hive 访问：SeaTunnel 实践指南

第一步：创建Hive表

第二步：执行SeaTunnel同步，并在Hive查询里执行下列操作

第三步：创建Doris Hive catalog外部库

MySQL 数据同步至 S3file，并接入 Hive 访问：SeaTunnel 实践指南的更多相关文章

随机推荐

热门专题