一、RDB模块介绍与演示

针对关系型数据库,FlinkX-RDB封装了基于JDBC规范的查询与插入等公共操作,各个数据源可通过继承FlinkX-RDB模块实现各自逻辑,目前已支持绝大部分市面上的RDB数据源:

    MySQL
    Oracle
    SqlServer
    PostgreSQL
    Db2
    DM
    Gbase
    ClickHouse
    SAPHANA
    Teradata
    Greeplum

二、脏数据原理与演示

数据同步过程中,出现主键为空,主键冲突等脏数据导致插入失败时,根据任务配置选择记录脏数据并继续执行后续数据插入或者直接结束任务。生产环境会根据脏数据管理模块对脏数据进行管理,存储到文件系统里,在任务结束后,可以在对应路径下查看,目前只支持Hadoop文件系统存储。

三、多通道原理与演示

其本质是通过Flink的并行度进行多线程并发读写以及数据库函数的mod()方法划分数据,使得数据不会重复读取。开启多通道的参数如下:

    reader插件parammeter里配置 splitPk切割键
    setting.speed里配置 channel 通道数量

四、自定义sql使用

FlinkX通过where条件拼接来进行自定义过滤,自定义过滤条件仍然是对table进行数据过滤,而自定义sql则是用户通过customSql指定sql,将其作为子查询,其结果作为临时表进行同步。

五、增量同步

表里的数据每天都在增加只需要同步增量的数据即可。指定增量字段来构造sql的where条件语句查询增量的数据,并将最后一条数据的增量字段值存到prometheus中,作为下次任务的增量字段起始值,达到增量数据的每日同步。只有RDB类型的reader插件支持增量同步并且增量字段只能为数值类型或者时间类型。

六、断点续传

断点续传使用场景是在需要资源较多的任务中,如果出现同步失败,重新同步会耗费大量资源,因此需要在同步失败的地方开始重新同步,减少资源的占用。断点续传主要通过Flink的Check Point机制存储任务运行时的状态以及位置信息并在CheckPoint时进行事务的提交,避免数据重复插入,这样在任务失败的时候,从Check Point处进行恢复运行即可。

七、间隔轮询

间隔轮询场景是在表里的数据不停的插入而不做其他操作,其原理根据配置的增量标识字段去轮询数据库获取数据,如果获取到数据则更新增量标识字段的值,相当于一个无界流,增量标识字段的类型必须是数值类型或者时间类型。

本文首发于:数栈研习社

数栈是云原生—站式数据中台PaaS,我们在github上有一个有趣的开源项目:FlinkX,FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,比如MySQL,HDFS等,也可以采集实时变化的数据,比如MySQL binlog,Kafka等,是全域、异构、批流一体的数据同步引擎,大家如果有兴趣,欢迎来github社区找我们玩~

Flink基础教程:数栈FlinkX RDB介绍与基本演示的更多相关文章

  1. VXLAN 基础教程:VXLAN 协议原理介绍

    VXLAN(Virtual eXtensible Local Area Network,虚拟可扩展局域网),是一种虚拟化隧道通信技术.它是一种 Overlay(覆盖网络)技术,通过三层的网络来搭建虚拟 ...

  2. flink基础教程读书笔记

    数据架构设计领域发生了重大的变化,基于流的处理是变化的核心. 分布式文件系统用来存储不经常更新的数据,他们也是大规模批量计算所以来的数据存储方式. 批处理架构(lambda架构)实现计数的方式:持续摄 ...

  3. 【Heritrix基础教程2】Heritrix基本介绍

    1.版本号说明 (1)最新的版本号:3.3.0 (2)最新release版本号:3.2.0 (3)重要历史版本号:1.14.4 3.1.0及之前的版本号:http://sourceforge.net/ ...

  4. [Python]基础教程(1)、介绍及环境搭建

    一.Python简介 Python是一种解释型.面向对象.动态数据类型的高级程序设计语言,是一个高层次的结合了解释性.编译性.互动性和面向对象的脚本语言. Python 是一种解释型语言: 这意味着开 ...

  5. 袋鼠云研发手记 | 数栈·开源:Github上400+Star的硬核分布式同步工具FlinkX

    作为一家创新驱动的科技公司,袋鼠云每年研发投入达数千万,公司80%员工都是技术人员,袋鼠云产品家族包括企业级一站式数据中台PaaS数栈.交互式数据可视化大屏开发平台Easy[V]等产品也在迅速迭代.在 ...

  6. ActiveMQ基础教程----简单介绍与基础使用

    概述 ActiveMQ是由Apache出品的,一款最流行的,能力强劲的开源消息总线.ActiveMQ是一个完全支持JMS1.1和J2EE 1.4规范的 JMS Provider实现,它非常快速,支持多 ...

  7. OpenLayers3基础教程——OL3 介绍control

    概述: 本文讲述的是Ol3中的control的介绍和应用. OL2和OL3 control比較: 相比較Ol2的control,OL3显得特别少,下图分别为Ol2和Ol3的control: Ol2的c ...

  8. Xamarin.FormsShell基础教程(7)Shell项目关于页面的介绍

    Xamarin.FormsShell基础教程(7)Shell项目关于页面的介绍 轻拍标签栏中的About标签,进入关于页面,如图1.8和图1.9所示.它是对应用程序介绍的页面. 该页面源自Views文 ...

  9. (转)Windows驱动编程基础教程

    版权声明     本书是免费电子书. 作者保留一切权利.但在保证本书完整性(包括版权声明.前言.正文内容.后记.以及作者的信息),并不增删.改变其中任何文字内容的前提下,欢迎任何读者 以任何形式(包括 ...

  10. 数栈运维实例:Oracle数据库运维场景下,智能运维如何落地生根?

    从马车到汽车是为了提升运输效率,而随着时代的发展,如今我们又希望用自动驾驶把驾驶员从开车这项体力劳动中解放出来,增加运行效率,同时也可减少交通事故发生率,这也是企业对于智能运维的诉求. 从人工运维到自 ...

随机推荐

  1. Joker 智能开发平台:低代码开发的革新力量

    在软件开发领域,开发效率与灵活性始终是开发者们追求的核心目标.随着技术的迅猛发展,低代码开发平台逐渐成为行业焦点,而 Joker 智能开发平台凭借其卓越的性能和创新的功能,脱颖而出,为开发者们带来了前 ...

  2. 14 个 Linux 下 CPU 监控工具

    01. top top是最常用的查看系统资源使用情况的工具,包括CPU.内存等等资源. 这里主要关注CPU资源. 1.1 /proc/loadavg load average取自/proc/loada ...

  3. Bandit Python代码审计漏洞检测工具实战

    系统概述 Bandit是一个用于分析Python代码审计安全漏洞的工具,旨在识别常见的安全问题,如硬编码密码.不安全的函数调用.SQL注入等.它通过构建抽象语法树(AST)并对节点运行适当的插件来检测 ...

  4. rabbitmq的高级部分

    producer的XML配置 <?xml version="1.0" encoding="UTF-8"?> <beans xmlns=&quo ...

  5. devops组件搭配选型

    名称 作用 备注 sentry 异常捕获系统 gitlab 代码仓库 jenkins 持续集成 open-falcon 监控系统 grafana 监控FE prometheus 监控系统 thanos ...

  6. cocos3 Shader的CCProgram模板详解

    这段内容描述的是一个 着色器(Shader) 的基本结构模板,可能用于一种自定义的着色器语言或框架(例如基于某种图形渲染引擎或中间表示语言扩展的着色器定义方式).以下是逐部分解析其含义: 1. CCP ...

  7. Python3多线程

    一.进程和线程 进程:是程序的一次执行,每个进程都有自己的地址空间.内存.数据栈及其他记录运行轨迹的辅助数据. 线程:所有的线程都运行在同一个进程当中,共享相同的运行环境.线程有开始.顺序执行和结束三 ...

  8. 【已解决】戴尔 Inspiron 5457 和 5557 启动报错:Invalid configuration information - please run SETUP program.

    场景 我使用的是戴尔15-5557的笔记本电脑,在某次开机的时候系统提示:Invalid configuration information - please run SETUP program. 虽 ...

  9. Java三大特性 封装、继承、多态

    封装 概念: 封装指的是将类的某些信息隐藏在类内部,不允许外部程序直接访问,只能通过该类提供的方法来实现对隐藏信息的操作和访问. 封装实现的步骤: 1.修改属性的可见性来显示属性的访问,一般设为pri ...

  10. JavaScript 没有“包”

    前言 除了古老的 C/C++,几乎所有的编程语言都有模块系统,都有官方的包管理器.我们一般不自己实现所有的代码,实际应用开发过程中大量使用开源库和框架.这篇文章演示了如何把自己实现的库变成一个包,一个 ...