ETLCloud结合kafka的数据集成
一、ETLCloud中实时数据集成的使用
在ETLCloud中数据集成有两种方式,一种是离线数据集成,另一种便是我们今天所要介绍的实时数据集成了,两者的区别从名字便可以得知,前者处理的数据是离线的没有时效性的,后者的数据是有时效性的,所以要根据自己需要的场景来使用这两个模块。

实时数据集成常见的场景有,CDC监听,Kafka监听,MQ监听(商业版),今天我们结合一些常用的场景来演示一下Kafka监听的使用。
二、场景演示
在实时数据集成中有一个重要的对象便是监听器,顾名思义是用来监听数据的变动的,一旦数据有变动那么监听器就能监听到并对数据进行原先设置好的方式去处理。
1、创建监听器
点击实时数据集成模块,进入模块首页,选择Kafka监听器,点击新增监听器

2、监听器的配置,Kafka的数据源我们需要在数据源管理中去新建
数据源选择Kafka然后新建数据源填写服务相关信息即可。

监听器配置图如下:
选择我们刚刚创建好的Kafka数据源,点击载入主题列表按钮,便可以获取所有的消费主题,填写消费分组,数据来源选择其他topic数据(监听的是Kafka中的主题)

接收端的配置:
我们可以选择把数据传给指定流程或者直接输出到目标库中,我们选择传输给ETL流程

3、创建接收实时数据的离线流程或目标数据库
我们可以创建一个简单的流程,将数据进行输出,流程如下。

4、向Kafka发送消息,offersetExploer工具连接Kafka并找到所要监听的主题,进行消息发送。

5、发送后回到我们之前创建好的流程查看流程日志,可以发现监听到的数据已经发送到流程中了。

同理如果是将数据传输到目标数据库,只需要配置好目标数据源即可

三、总结
实时数据集成是ETLCloud中重要的功能模块之一,与离线数据集成相对应。实时数据集成能够处理具有时效性的数据,常见的场景包括CDC监听、Kafka监听以及MQ监听等。
在实时数据集成中,监听器是一个重要的对象,用于监听数据的变动,一旦数据有变动,监听器就会触发相应的处理操作。具体操作包括创建监听器、配置Kafka数据源、设置接收端配置等步骤。
对于Kafka监听器的配置,需要先在数据源管理中新建Kafka数据源并填写相关信息,然后配置监听器以选择消费主题、填写消费分组等。接收端的配置可以选择传输给ETL流程或直接输出到目标数据库。
创建接收实时数据的离线流程或目标数据库是实时数据集成的关键步骤之一,通过简单的流程可以将监听到的数据进行输出或传输至目标数据库。
最后,通过消息发送工具向Kafka发送消息,然后查看流程日志以确认监听到的数据是否已经发送到流程中。
ETLCloud结合kafka的数据集成的更多相关文章
- DataPipeline丨构建实时数据集成平台时,在技术选型上的考量点
文 | 陈肃 DataPipeline CTO 随着企业应用复杂性的上升和微服务架构的流行,数据正变得越来越以应用为中心. 服务之间仅在必要时以接口或者消息队列方式进行数据交互,从而避免了构建单一数 ...
- 基于Kafka Connect框架DataPipeline可以更好地解决哪些企业数据集成难题?
DataPipeline已经完成了很多优化和提升工作,可以很好地解决当前企业数据集成面临的很多核心难题. 1. 任务的独立性与全局性. 从Kafka设计之初,就遵从从源端到目的的解耦性.下游可以有很多 ...
- 基于Kafka Connect框架DataPipeline在实时数据集成上做了哪些提升?
在不断满足当前企业客户数据集成需求的同时,DataPipeline也基于Kafka Connect 框架做了很多非常重要的提升. 1. 系统架构层面. DataPipeline引入DataPipeli ...
- 以Kafka Connect作为实时数据集成平台的基础架构有什么优势?
Kafka Connect是一种用于在Kafka和其他系统之间可扩展的.可靠的流式传输数据的工具,可以更快捷和简单地将大量数据集合移入和移出Kafka的连接器.Kafka Connect为DataPi ...
- 打造实时数据集成平台——DataPipeline基于Kafka Connect的应用实践
导读:传统ETL方案让企业难以承受数据集成之重,基于Kafka Connect构建的新型实时数据集成平台被寄予厚望. 在4月21日的Kafka Beijing Meetup第四场活动上,DataPip ...
- Kafka ETL 之后,我们将如何定义新一代实时数据集成解决方案?
上一个十年,以 Hadoop 为代表的大数据技术发展如火如荼,各种数据平台.数据湖.数据中台等产品和解决方案层出不穷,这些方案最常用的场景包括统一汇聚企业数据,并对这些离线数据进行分析洞察,来达到辅助 ...
- DataPipeline CTO陈肃:从ETL到ELT,AI时代数据集成的问题与解决方案
引言:2018年7月25日,DataPipeline CTO陈肃在第一期公开课上作了题为<从ETL到ELT,AI时代数据集成的问题与解决方案>的分享,本文根据陈肃分享内容整理而成. 大家好 ...
- Kafka设计解析(十八)Kafka与Flink集成
转载自 huxihx,原文链接 Kafka与Flink集成 Apache Flink是新一代的分布式流式数据处理框架,它统一的处理引擎既可以处理批数据(batch data)也可以处理流式数据(str ...
- DataPipeline CTO 陈肃:我们花了3年时间,重新定义数据集成
目前,中国企业在大数据流通.交换.利用等方面仍处于起步阶段,但是企业应用数据集成市场却是庞大的.根据 Forrester 数据看来,2017 年全球数据应用集成市场纯软件规模是 320 亿美元,如果包 ...
- 详解Kafka: 大数据开发最火的核心技术
详解Kafka: 大数据开发最火的核心技术 架构师技术联盟 2019-06-10 09:23:51 本文共3268个字,预计阅读需要9分钟. 广告 大数据时代来临,如果你还不知道Kafka那你就真 ...
随机推荐
- js判断iOS还是Android
/** * 运行设备引擎, 即iOS, Android还是H5 * 返回值注意大小写 * @return iOS, Android, H5 */ function engineType() { let ...
- Stream流式编程工具类,开发必备
把自己写的流式编程工具分享出来,不涉及公司业务,非常便捷,不用在业务层看到一条龙式的Stream代码了: 大家用的最多的应该是转list,转set,以及setVFromE: 觉得好用点个赞就行 imp ...
- Spring基于注解的AOP事务控制
Spring基于注解的AOP事务控制 源码 代码测试 pom.xml <?xml version="1.0" encoding="UTF-8"?> ...
- 第二章 Spring Boot 整合 Kafka消息队列 生产者
系列文章目录 第一章 Kafka 配置部署及SASL_PLAINTEXT安全认证 第二章 Spring Boot 整合 Kafka消息队列 生产者 第三章 Spring Boot 整合 Kaf ...
- 鸿蒙NEXT开发教程:浅谈@ComponentV2装饰器
听说今天的广州车展上有一部分人已经看到华为汽车的最后一"界",尊界超豪华大轿车,应该很快就要正式亮相,可以期待一波. 在api12之后,鸿蒙系统推出一个V2版本的状态管理装饰器,不 ...
- MySQL高可用之PXC
1.PXC简介 参考Percona官方https://www.percona.com/software/mysql-database/percona-xtradb-cluster PXC(Perc ...
- Python 的 type 及常用魔法方法(上)
魔法方法是 Python 内置方法, 不需要我们手动调用, 它存在的目的是给 解释器 调用的. 比如我们在写 "1 + 1 " 的时候, 这个 "+ " 就会自 ...
- 中国科学院计算所:从 NFS 到 JuiceFS,大模型训推平台存储演进之路
中科院计算所在建设大模型训练与推理平台过程中,模型规模与数据集数量呈爆发式增长.最初采用简单的裸机存储方案,但很快面临数据孤岛.重复冗余.管理混乱和资源利用不均等问题,于是升级到了 NFS 系统.然而 ...
- .NET 开源工业视觉系统 OpenIVS 快速搭建自动化检测平台
前言 随着工业4.0和智能制造的发展,工业视觉在质检.定位.识别等场景中发挥着越来越重要的作用.然而,开发一个完整的工业视觉系统往往需要集成相机控制.图像采集.图像处理.AI推理.PLC通信等多个模块 ...
- IDEA terminal控制台配置git bash及中文乱码问题
1.修改控制台shell路径:setting -> Tools -> Terminal -> Shell path,修改为git安装路径. 修改完毕,在控制台输入exit断开sess ...