Flink kuduSink开发

1、继承RichSinkFunction

（1）首先在构造方式传入kudu的masterAddress地址、默认表名、TableSerializationSchema、KuduTableRowConverter、Properties配置对象

（2）重写open方法

初始化KuduClient对象操作kudu，KuduSession对象并传入一堆配置

（3）重写invoke方法

核心是如果已传入TableSerializationSchema对象，则通过其serializeTable方法从输入的json数据里提取表名，如果未定义则直接取默认表名。拿到表名后就能使用KuduClient对象对其操作了

if (schema != null) {

String serializeTableName = schema.serializeTable(row);

if (serializeTableName == null) return;

table = client.openTable(serializeTableName);

}

else

table = client.openTable(tableName);

insert = table.newInsert();

2、定义KuduTableRowConverter接口，将每一条输入数据转换成TableRow对象

public interface KuduTableRowConverter<IN> extends Serializable {

TableRow convert(IN value);

}

定义TableRow类，代表一行数据，key是字串型的键名，value是Object型的键值

public class TableRow implements Serializable {

private static final long serialVersionUID = 1L;

private Map<String, Object> pairs = new HashMap<>();

public int size() {return pairs.size();}

public Map<String, Object> getPairs() {return pairs;}

public Object getElement(String key) {return pairs.get(key);}

public void putElement(String key, Object value) {pairs.put(key, value);}

}

定义JsonKuduTableRowConverter实现KuduTableRowConverter接口，对于输入的json数据，通过一系列转换逻辑转换成TableRow对象

3、定义TableSerializationSchema接口，从每一条输入数据里提取表名

public interface TableSerializationSchema<IN> extends Serializable {

String serializeTable(IN value);

}

定义JsonLogidKeyTableSerializationSchema实现TableSerializationSchema接口，对于输入的json数据，使用指定key值提取value值，然后再从一个预先获取的map里找到这个value对应的表名，然后加上必要的前缀与后缀组成impala的表名

Flink kuduSink开发的更多相关文章

基于flink快速开发实时TopN程序
TopN 是统计报表和大屏非常常见的功能,主要用来实时计算排行榜.流式的TopN可以使业务方在内存中按照某个统计指标(如出现次数)计算排名并快速出发出更新后的排行榜. 我们以统计词频为例展示一下如何快 ...
Flink应用开发-maven导入
flink和spark类似,也是一种一站式处理的框架:既可以进行批处理(DataSet),也可以进行实时处理(DataStream) 使用maven导入相关依赖 <properties> ...
Flink开发中的问题
1. 流与批处理的区别流处理系统流处理系统,其节点间数据传输的标准模型是:当一条数据被处理完成后,序列化到缓存中,然后立刻通过网络传输到下一个节点,由下一个节点继续处理. 批处理系统批处理系统, ...
Flink Program Guide （2） -- 综述（DataStream API编程指导 -- For Java）
v\:* {behavior:url(#default#VML);} o\:* {behavior:url(#default#VML);} w\:* {behavior:url(#default#VM ...
[Note] Apache Flink 的数据流编程模型
Apache Flink 的数据流编程模型抽象层次 Flink 为开发流式应用和批式应用设计了不同的抽象层次状态化的流抽象层次的最底层是状态化的流,它通过 ProcessFunction 嵌入到 ...
美团点评基于 Flink 的实时数仓建设实践
https://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651749037&idx=1&sn=4a448647b3dae5 ...
Flink官网文档翻译
http://ifeve.com/flink-quick-start/ http://vinoyang.com/2016/05/02/flink-concepts/ http://wuchong.me ...
Flink学习笔记-新一代Flink计算引擎
说明:本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKh ...
Flink生态与未来
本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...

随机推荐

POJ1088 滑雪题解+HDU 1078（记忆化搜索DP)
Description Michael喜欢滑雪百这并不奇怪, 因为滑雪的确很刺激.可是为了获得速度,滑的区域必须向下倾斜,而且当你滑到坡底,你不得不再次走上坡或者等待升降机来载你.Michael想知道 ...
Objective-C对象模型
Objective-C是一门面向对象的编程语言,每一个对象都是一个类的实例.XCode中打开objc.h可以看到如下定义: /// An opaque type that represents an ...
java读源码之 Queue（ArrayDeque，附图，希望能一起交流）
除了并发应用(并发包下的代码我之后会专门写),Queue在JavaSE5中仅有的两个实现是LinkedList和PriorityQueue,它们的差异在于排序行为而不是性能.1.6时新增了一个实现Ar ...
Coursera课程笔记----计算导论与C语言基础----Week 4
感性认识计算机程序(Week 4) 引入编程序 = 给计算机设计好运行步骤程序 = 人们用来告诉计算机应该做什么的东西问题➡️该告诉计算机什么?用什么形式告诉? 如果要创造一门"程序设 ...
Cassandra 简介
Cassandra是云原生和微服务化场景中最好的NoSQL数据库.我信了~ 1. Cassandra是什么高可用性和可扩展的分布式数据库 Apache Cassandra™是一个开源分布式数据,可提 ...
【Spark】DataFrame关于数据常用操作
文章目录 DSL语法概述实例操作 SQL语法概述实例操作 DSL语法概述 1.查看全表数据 -- DataFrame.show 2.查看部分字段数据(有4种方法) (1) DataFram ...
NLTK数据包下载频繁报错——解决方法
问题描述:Nltk下载数据包,安装频繁报错. import nltk nltk.download() 运行上面的代码,下载nltk的数据包.但是在下载过程中因为各种问题导致网络传输失败,下载不成功. ...
Linux共享库简单总结
库静态库编译的二进制会重新包含一份静态库的副本共享库编译 gcc -shared -o file.c -fPIC 链接 ld ld-linux.so.2 可执行程序–>动态依赖表流程: ...
小程序-for循环遍历的使用
.js文件: Page({ /** * 页面的初始数据 */ data: { datas:[ { title: '提交申请', txt: '选择服务类型,填写基本信息,提交' }, { title: ...
[hdu4123]dfs区间化+RMQ
题意:给一个树编号0~n-1,一个数组a[i]为节点i在树上走的最大距离(不重复点),然后求最大的区间,使得区间最大差异小于某个值.dfs求出每个数组,同时区间化.枚举区间左边界,右边界同样递增,类似 ...

Flink kuduSink开发

Flink kuduSink开发的更多相关文章

随机推荐

热门专题