课件获取：关注公众号“ChunJun”，后台私信 “课件” 获得直播课件

ChengYing开源项目地址：github 丨 gitee 喜欢我们的项目给我们点个__ STAR！STAR！！STAR！！！（重要的事情说三遍）__

技术交流钉钉 qun：30537511

本期我们带大家回顾一下六六同学的直播分享《ChunJun数据传输模块介绍》。

一、ChunJun数据类型转换

1、类型转换解决的问题

大家一听到「ChunJun数据类型转换」这个概念，可能会联想到上下游之间进行数据交互时会涉及到的隐式转换。如果上游和下游数据类型一致，则不需要对数据进行任何干预，直接进行下发即可。

但是大多数情况下会涉及到两个问题，一是上游的数据源类型和下游的数据源类型不一致。比如MySql的varchar类型要写到HdfsOrc文件里的string类型的话，在上游的表示是varchar，在下游的表示是string，但实际上中间段java的类型都是string。

另外一种情况则是，上下游之间不止数据源类型不一样，数据类型也不一样，除了要做类型的映射之外，还需要对数据本身进行改动。比如，MySql的date类型要写到下游timestamp类型，我们需要进行的操作是把date中的毫秒级的时间戳拿出来，转换成timestamp的类型，再往下游去写。

这样就引出了一个问题，如何建立所有数据源类型之间的映射/转换关系？下面将为大家解答这个问题。

2、类型映射概览

• client端：在Factory类中通过RawConverter类建立映射关系

• source端：将数据封装成AbstractBaseColumn

• sink端：通过AbstractBaseColumn中的转换方法将数据转换成对应类型

ChunJun目前支持的数据类型映射关系图如下：

3、类型映射详解

以Timestamp为例，如果要写入到Long类型的话，根据上文展示的ChunJun数据类型映射关系图，最终映射到TimestampColumn中，具体流程如下图：

上面这个例子描述的是一个单独的字段，正常情况下，会处理多个字段，这时的类型映射详解情况如下图：

as方法就是数据类型转换的方法。使用这个机制之后，在下游可以只关心需要的数据类型，增加开发效率。

二、ChunJun数据传输过程

了解完ChunJun数据类型转换后，我们来为大家分享ChunJun的数据传输过程。

1、上下游数据传输方式

在ChunJun中进行同步作业，有两种情况，一是算子链打开的情况，上游的Source和下游的Sink会被合并成一个task，有同一个线程去做调度；二是把算子链进行关闭，Source和Sink各自形成一个task，也有各自的线程去进行调度。

在算子链打开的情况下，上下游数据传输方式可分为两种，对象重用和拷贝。

● 对象重用

· 上下游数据传输使用方法调用的形式，将上游产生的数据的对象引用直接交给下游

· 上下游算子需要形成算子链，作业开启对象重用

· env.getConfig().enableObjectReuse();

● 拷贝

· 上游传输给下游的数据，需要经过一次深拷贝

· 上下游算子需要形成算子链

算子链的好处是可以减少序列化的操作，那么为什么我们还要引入序列化呢？因为ChunJun的特殊性。ChunJun同步作业的话，只有上下游两个算子，且都对接了正式的数据源，读写的时候会导致线程堵塞。因此上限由网络io决定，如果断开算子链，cpu会在一端线程阻塞的时候切换到另外一端。在序列化的性能较高时，线程上下文切换带来的性能下降完全可以被弥补。

经过测试，序列化的性能比对象重用和拷贝高30%左右。

● 序列化

· 上下游数据传输依赖于网络传输。上游数据进行序列化成byte数组后进行网络传输，下游收到数据后需要进行反序列化

· 上下游之间不形成算子链

知道要做序列化后，会产生一些思考，带着这些疑问，接着往下看。

• 序列化和反序列化在什么时候发生？

• Flink支持哪些序列化？

• 序列化是怎么做的？

• 怎么找到适合的序列化方式？

• 如何实现自定义的序列化？

2、序列化传输过程

下图是ChunJun在进行序列化操作时的数据传输链路图：

3、DataOutView

4、TypeInformation介绍

5、kryo序列化&BaseSerializer

同样是序列化一个int对象，对kryo来说，首先需要知道它的类型，然后从高位到低位依次去写入。

DataOutputView则是直接调用一个writeInt的方法，写一句关键代码即可：

UNSAFE.putInt(

this.buffer,

BASE_OFFSET + this.position, v);

三、ChunJun序列化实现

1、ColumnRowData序列化过程

ColumnRowData序列化过程采取标志位+实际数据的方式，具体流程如下图：

相对于kryo的序列化来说：

· 实现了更密集的存储

· 兼容null值

· 减少了不必要的数据传输

2、BinaryRowData结构

因为数据区一格只占8个字节，且每个index只能占到一位，所以肯定存在一些没法存储在8字节范围之内的数据，可变长度部分就是用来存放数据区无法存放的数据。

3、BinaryRowData-setNull操作

看到上文的null值判断区，有些同学可能会好奇这是什么，又是怎么进行操作的。下图将对一个下标为11的数据去做setnull操作，进行简单介绍：

4、BinaryRowData数据存储方式

开源交流丨批流一体数据集成框架ChunJun数据传输模块详解分享的更多相关文章

Tapdata 肖贝贝：实时数据引擎系列(六)-从 PostgreSQL 实时数据集成看增量数据缓存层的必要性
摘要:对于 PostgreSQL 的实时数据采集, 业界经常遇到了包括:对源库性能/存储影响较大, 采集性能受限, 时间回退重新同步不支持, 数据类型较复杂等等问题.Tapdata 在解决 Pos ...
DataPipeline CTO陈肃：构建批流一体数据融合平台的一致性语义保证
文 | 陈肃 DataPipelineCTO 交流微信 | datapipeline2018 本文完整PPT获取 | 关注公众号后,后台回复“陈肃” 首先,本文将从数据融合角度,谈一下DataPipe ...
阿里重磅开源全球首个批流一体机器学习平台Alink，Blink功能已全部贡献至Flink
11月28日,Flink Forward Asia 2019 在北京国家会议中心召开,阿里在会上发布Flink 1.10版本功能前瞻,同时宣布基于Flink的机器学习算法平台Alink正式开源,这也是 ...
041——VUE中组件之pros数据的多种验证机制实例详解
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
2017.2.13 开涛shiro教程-第十二章-与Spring集成（一）配置文件详解
原博客地址:http://jinnianshilongnian.iteye.com/blog/2018398 根据下载的pdf学习. 第十二章-与Spring集成(一)配置文件详解 1.pom.xml ...
MySQL对数据库数据进行复制的基本过程详解
MySQL对数据库数据进行复制的基本过程详解这篇文章主要介绍了MySQL对数据库数据进行复制的基本过程,解读了Slave的一些相关配置,需要的朋友可以参考下复制复制是从一个MySQL服务器(ma ...
统一批处理流处理——Flink批流一体实现原理
实现批处理的技术许许多多,从各种关系型数据库的sql处理,到大数据领域的MapReduce,Hive,Spark等等.这些都是处理有限数据流的经典方式.而Flink专注的是无限流处理,那么他是怎么做到 ...
自动化集成：Pipeline流水语法详解
前言:该系列文章,围绕持续集成:Jenkins+Docker+K8S相关组件,实现自动化管理源码编译.打包.镜像构建.部署等操作:本篇文章主要描述Pipeline流水线用法. 一.Webhook原理 ...
自动化集成：Kubernetes容器引擎详解
前言:该系列文章,围绕持续集成:Jenkins+Docker+K8S相关组件,实现自动化管理源码编译.打包.镜像构建.部署等操作:本篇文章主要描述Kubernetes引擎用法. 一.基础简介 Kube ...
（数据科学学习手札140）详解geopandas中基于pyogrio的矢量读写引擎
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介大家好我是费老师,前不久我在一篇文章中给大家分享 ...

随机推荐

Linux® 容器
是与系统其他部分隔离开的一系列进程.运行这些进程所需的所有文件都由另一个镜像提供,这意味着从开发到测试再到生产的整个过程中,Linux 容器都具有可移植性和一致性.因而,相对于依赖重复传统测试环境的开 ...
etcd和Zookeeper孰优孰劣对比
背景最近在看到Pachyderm的介绍时,看到作者拿YARN和Kubernetes做类比,拿Zookeeper和etcd做对比.YARN和Kubernetes的类比还相对比较好理解,毕竟他们都有资源 ...
MySQL-删除数据和count(*)原理
delete删除数据原理在InndoDB存储引擎中,delete删除操作是把需要删除的数据或者页标记为已删除,后面如果有需要,直接复用即可.这些被标记为已经删除的数据,看起来就像空洞一样.所以看起来 ...
在Linux终端管理你的密码！
大家好,我是良许. 现在是互联网时代,我们每天都要跟各种 APP .网站打交道,而这些东西基本上都需要注册才可以使用. 但是账号一多,我们自己都经常记不清对应的密码了.有些小伙伴就一把梭,所有的账号密 ...
加减法计算在RB中的应用（比如计算库存）（should be equal as integers指令的使用）
订单测试过程中,对库存的校验是很关键的步骤下面这个案例即实现对订单前后库存检查.公式计算.结果匹配,输出测试结果.具体脚本如下图步骤如下: 1.获取订单前的库存 2.订单流程 3.获取订单后的库存 ...
MySQL 中 DATETIME 和 TIMESTAMP 类型的区别是什么？
在MySQL中,DATETIME和TIMESTAMP都是用于存储日期和时间的类型,但它们有一些关键的区别: 1. 存储方式和范围 DATETIME: 存储的日期和时间值是以"年-月-日时: ...
Innodb快速复习
放一张官方架构图: 参考文章: 一文带你了解MySQL之InnoDB_Buffer_Pool-阿里云开发者社区这一篇buffer pool讲解的很好 [动画演示:MySQL的BufferPool和Ch ...
CSP-S 17天冲刺计划
var code = "91461527-5e0b-458f-ae4b-db46cf2a11c8" D1~D3(树专题复习)(OK\color{green}OKOK) 树基础(OK ...
Rust实战系列-Rust介绍
" 学习资料:rust in action[1] 1. Rust 安装 curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | ...
K8s Pod 控制器介绍及应用示例
Kubernetes 官方文档:Pod 控制器 Pod控制器介绍 Pod是kubernetes的最小管理单元,在kubernetes中,按照pod的创建方式可以将其分为两类: 自主式pod:kuber ...

开源交流丨批流一体数据集成框架ChunJun数据传输模块详解分享