一、RDB模块介绍与演示

针对关系型数据库,FlinkX-RDB封装了基于JDBC规范的查询与插入等公共操作,各个数据源可通过继承FlinkX-RDB模块实现各自逻辑,目前已支持绝大部分市面上的RDB数据源:

    MySQL
    Oracle
    SqlServer
    PostgreSQL
    Db2
    DM
    Gbase
    ClickHouse
    SAPHANA
    Teradata
    Greeplum

二、脏数据原理与演示

数据同步过程中,出现主键为空,主键冲突等脏数据导致插入失败时,根据任务配置选择记录脏数据并继续执行后续数据插入或者直接结束任务。生产环境会根据脏数据管理模块对脏数据进行管理,存储到文件系统里,在任务结束后,可以在对应路径下查看,目前只支持Hadoop文件系统存储。

三、多通道原理与演示

其本质是通过Flink的并行度进行多线程并发读写以及数据库函数的mod()方法划分数据,使得数据不会重复读取。开启多通道的参数如下:

    reader插件parammeter里配置 splitPk切割键
    setting.speed里配置 channel 通道数量

四、自定义sql使用

FlinkX通过where条件拼接来进行自定义过滤,自定义过滤条件仍然是对table进行数据过滤,而自定义sql则是用户通过customSql指定sql,将其作为子查询,其结果作为临时表进行同步。

五、增量同步

表里的数据每天都在增加只需要同步增量的数据即可。指定增量字段来构造sql的where条件语句查询增量的数据,并将最后一条数据的增量字段值存到prometheus中,作为下次任务的增量字段起始值,达到增量数据的每日同步。只有RDB类型的reader插件支持增量同步并且增量字段只能为数值类型或者时间类型。

六、断点续传

断点续传使用场景是在需要资源较多的任务中,如果出现同步失败,重新同步会耗费大量资源,因此需要在同步失败的地方开始重新同步,减少资源的占用。断点续传主要通过Flink的Check Point机制存储任务运行时的状态以及位置信息并在CheckPoint时进行事务的提交,避免数据重复插入,这样在任务失败的时候,从Check Point处进行恢复运行即可。

七、间隔轮询

间隔轮询场景是在表里的数据不停的插入而不做其他操作,其原理根据配置的增量标识字段去轮询数据库获取数据,如果获取到数据则更新增量标识字段的值,相当于一个无界流,增量标识字段的类型必须是数值类型或者时间类型。

本文首发于:数栈研习社

数栈是云原生—站式数据中台PaaS,我们在github上有一个有趣的开源项目:FlinkX,FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,比如MySQL,HDFS等,也可以采集实时变化的数据,比如MySQL binlog,Kafka等,是全域、异构、批流一体的数据同步引擎,大家如果有兴趣,欢迎来github社区找我们玩~

Flink基础教程:数栈FlinkX RDB介绍与基本演示的更多相关文章

  1. VXLAN 基础教程:VXLAN 协议原理介绍

    VXLAN(Virtual eXtensible Local Area Network,虚拟可扩展局域网),是一种虚拟化隧道通信技术.它是一种 Overlay(覆盖网络)技术,通过三层的网络来搭建虚拟 ...

  2. flink基础教程读书笔记

    数据架构设计领域发生了重大的变化,基于流的处理是变化的核心. 分布式文件系统用来存储不经常更新的数据,他们也是大规模批量计算所以来的数据存储方式. 批处理架构(lambda架构)实现计数的方式:持续摄 ...

  3. 【Heritrix基础教程2】Heritrix基本介绍

    1.版本号说明 (1)最新的版本号:3.3.0 (2)最新release版本号:3.2.0 (3)重要历史版本号:1.14.4 3.1.0及之前的版本号:http://sourceforge.net/ ...

  4. [Python]基础教程(1)、介绍及环境搭建

    一.Python简介 Python是一种解释型.面向对象.动态数据类型的高级程序设计语言,是一个高层次的结合了解释性.编译性.互动性和面向对象的脚本语言. Python 是一种解释型语言: 这意味着开 ...

  5. 袋鼠云研发手记 | 数栈·开源:Github上400+Star的硬核分布式同步工具FlinkX

    作为一家创新驱动的科技公司,袋鼠云每年研发投入达数千万,公司80%员工都是技术人员,袋鼠云产品家族包括企业级一站式数据中台PaaS数栈.交互式数据可视化大屏开发平台Easy[V]等产品也在迅速迭代.在 ...

  6. ActiveMQ基础教程----简单介绍与基础使用

    概述 ActiveMQ是由Apache出品的,一款最流行的,能力强劲的开源消息总线.ActiveMQ是一个完全支持JMS1.1和J2EE 1.4规范的 JMS Provider实现,它非常快速,支持多 ...

  7. OpenLayers3基础教程——OL3 介绍control

    概述: 本文讲述的是Ol3中的control的介绍和应用. OL2和OL3 control比較: 相比較Ol2的control,OL3显得特别少,下图分别为Ol2和Ol3的control: Ol2的c ...

  8. Xamarin.FormsShell基础教程(7)Shell项目关于页面的介绍

    Xamarin.FormsShell基础教程(7)Shell项目关于页面的介绍 轻拍标签栏中的About标签,进入关于页面,如图1.8和图1.9所示.它是对应用程序介绍的页面. 该页面源自Views文 ...

  9. (转)Windows驱动编程基础教程

    版权声明     本书是免费电子书. 作者保留一切权利.但在保证本书完整性(包括版权声明.前言.正文内容.后记.以及作者的信息),并不增删.改变其中任何文字内容的前提下,欢迎任何读者 以任何形式(包括 ...

  10. 数栈运维实例:Oracle数据库运维场景下,智能运维如何落地生根?

    从马车到汽车是为了提升运输效率,而随着时代的发展,如今我们又希望用自动驾驶把驾驶员从开车这项体力劳动中解放出来,增加运行效率,同时也可减少交通事故发生率,这也是企业对于智能运维的诉求. 从人工运维到自 ...

随机推荐

  1. MFC非模态对话框的关闭

    如果要在点击按钮的情况下,销毁非模态对话框,只需要把按钮的事件映射到OnCancel函数, 里面调用DestroyWindow(), 然后重写PostNCDestroy(), delete 指针. 另 ...

  2. bug|Git Hooks pre-commit|git 提交代码报错|error: 'describe' 'it' 'expect' is not defined (no-undef)|pre-commit hook failed (add --no-verify to bypass)|

    前言 今天学习 jest 的 vue-test-utils 的配置及使用. 报错原因为 jest 全局变量 git 提交代码报错,使用除了参考链接里的解决方案,正好复习一下之前学习的 Git Hook ...

  3. MySQL-删除数据和count(*)原理

    delete删除数据原理 在InndoDB存储引擎中,delete删除操作是把需要删除的数据或者页标记为已删除,后面如果有需要,直接复用即可.这些被标记为已经删除的数据,看起来就像空洞一样.所以看起来 ...

  4. SqlServer 数据库邮件 + QQ邮箱

    以 SQL Server 2012 为例 QQ邮箱设置 首先到你的QQ邮箱中启用POP3/SMTP服务,并拷贝QQ邮箱给予的授权码. 这里的授权码复制过来,一会需要用到. SQL Server 数据库 ...

  5. ASP.NET Core 阿弥陀佛中间件

    Amitabha n. <梵>(佛)阿弥陀佛 佛曰: 因果 那么一天 看见文章1. 发现还有2.这么个中间件 于是追寻源码,发现了3. 再然后寻思自己也可以写一个什么中间件,以便学习掌握 ...

  6. MCP技术:渗透测试从自动化到智能化

    在人工智能快速发展的今天,如何让AI更高效地与现实世界交互,成为许多开发者和研究者关注的焦点.MCP(Model Context Protocol)技术作为一种创新的工具集成方案,为AI提供了一种&q ...

  7. 学习Linux只要学会这个命令就够了!

    大家好,我是良许. 这段时间又是搬家,又是找新办公室,现在终于安顿下来了,有时间给大家分享干货了. 今天给大家介绍一个 Linux 超级实用命令,有了这个命令,你就可以愉快使用 Linux 上几乎所有 ...

  8. 一次小而美的重构:使用 C# 在 Avalonia 中生成真正好看的词云

    前言 我之前不是开发 StarBlogPublisher(一款 Markdown 文章发布工具)吗? 当时里面有个分类 词云(Word Cloud) 展示功能. 初版的词云虽然 "能用&qu ...

  9. 29.1K star!免费接入GPT-4/DeepSeek等顶级大模型,这个开源API神器绝了!

    嗨,大家好,我是小华同学,关注我们获得"最新.最全.最优质"开源项目和高效工作学习方法 还在为天价API费用发愁?这个开源项目让你免费畅用GPT-4.DeepSeek.Claude ...

  10. Linux 的那些操作都出自哪里?

    Linux 的那些操作都出自哪里? 可以说 Linux 是一种 Unix.Unix 有一个 man 手册,手册包含了安装的软件的使用帮助,遇到问题的解决办法.总之几乎所有的操作都是手册里面有迹可循的, ...