导语:Flink是一个对有界和无界数据流进行状态计算的分布式处理引擎和框架,主要用来处理流式数据。它既可以处理有界的批量数据集,也可以处理无界的实时流数据,为批处理和流处理提供了统一编程模型。

维度表可以看作是用户来分析数据的窗口,它区别于事实表业务真实发生的数据,通常用来表示业务属性,以便为分析者提供有用的信息。在实际场景中,由于数据是实时变化的,因此需要通过将维度表进行关联,来保证业务的时效性和稳定性。本文主要围绕Flink维度表关联方案进行论述,分析不同关联方案的作用和特点,与各位读者共飨。

维度表与事实表的关联是数据分析中常见的一种分析方式,在传统数仓系统中,由于数据是有界的,因此关联实现相对简单。但是在实时系统或实时数仓中,数据是无界的,关联时需要考虑的问题就会复杂很多,如数据迟到导致的关联结果不准确、缓存数据消耗资源过大等等。

在典型的实时系统中,维表数据一般来源于源系统的OLTP数据库中,采用CDC技术将维表数据实时采集到Kafka或其他消息队列,最后保存到HBase、Hudi、Redis等组件中供数据分析使用。一个比较常见的架构图如下:

​编辑

Flink维度表关联有多种方案,包括实时lookup数据库关联、预加载维表关联、广播维度表、Temporal Table Function Join等。每种方案都有各自的特点,需要结合实际情况综合判断,维表关联方案主要考虑的因素有如下几个方面:

■ 实现复杂度:实现维表关联复杂度越低越好

■ 数据库负载:随着事实表数据量增大,数据库吞吐量能否满足,数据库负载能否支撑

■ 维表更新实时性:维表更新后,新的数据能否及时被应用到

■ 内存消耗:是否占用太多内存

■ 横向扩展:随着数据量增大,能否横向扩展

■ 结果确定性:结果的正确性是否能够保证

01 实时lookup数据库关联

所谓实时lookup数据库关联,就是在用户自定义函数中通过关联字段直接访问数据库实现关联的方式。每条事实表数据都会根据关联键,到存储维度表的数据库中查询一次。

​编辑

实时lookup数据库关联的特点是实现简单,但数据库压力较大,无法支撑大数据量的维度数据查询,并且在查询时只能根据当时的维度表数据查询,如果事实表数据重放或延迟,查询结果的正确性无法得到保证,且多次查询结果可能不一致。

实时lookup数据库关联还可以再细分为三种方式:同步lookup数据库关联、异步lookup数据库关联和带缓存的数据库lookup关联。

1.1 同步lookup数据库关联

同步实时数据库lookup关联实现最简单,只需要在一个RichMapFunction或者RichFlat-MapFunction中访问数据库,处理好关联逻辑后将结果数据输出即可。上游每输入一条数据就会前往外部表中查询一次,等待返回后输出关联结果。

同步lookup数据库关联的参考代码如下:

创建类并继承RichMapFunction抽象类。

public class HBaseMapJoinFun extends RichMapFunction<Tuple2<String,String>,Tuple3<String,String,String>> {

在open方法中实现连接数据库(该数据库存储了维度表信息)。

public void open(Configuration parameters) throws Exception {
org.apache.hadoop.conf.Configuration hconf= HBaseConfiguration.create();
InputStream hbaseConf = DimSource.class.getClassLoader().getResourceAsStream("hbase-site.xml");
InputStream hdfsConf = DimSource.class.getClassLoader().getResourceAsStream("hdfs-site.xml");
InputStream coreConf = DimSource.class.getClassLoader().getResourceAsStream("core-site.xml");
hconf.addResource(hdfsConf);
hconf.addResource(hbaseConf);
hconf.addResource(coreConf);
if (User.isHBaseSecurityEnabled(hconf)){
String userName = "dl_rt";
String keyTabFile = "/opt/kerberos/kerberos-keytab/keytab";
LoginUtil.setJaasConf(ZOOKEEPER_DEFAULT_LOGIN_CONTEXT_NAME, userName, keyTabFile);
}else {
LOG.error("conf load error!");
}
connection = ConnectionFactory.createConnection(hconf);
}

在map方法中实现关联操作,并返回结果。

@Override
public Tuple3<String, String, String> map(Tuple2<String, String> stringStringTuple2) throws Exception
LOG.info("Search hbase data by key .");
String row_key = stringStringTuple2.f1;
String p_name = stringStringTuple2.f0;
byte[] familyName = Bytes.toBytes("cf");
byte[] qualifier = Bytes.toBytes("city_name");
byte[] rowKey = Bytes.toBytes(row_key);
table = connection.getTable(TableName.valueOf(table_name));
Get get = new Get(rowKey);
get.addColumn(familyName,qualifier);
Result result = table.get(get);
for (Cell cell : result.rawCells()){
LOG.info("{}:{}:{}",Bytes.toString(CellUtil.cloneRow(cell)),Bytes.toString(CellUtil.cloneFamily(cell)),
Bytes.toString(CellUtil.cloneQualifier(cell)),
Bytes.toString(CellUtil.cloneValue(cell)));
}
String cityName = Bytes.toString(result.getValue(Bytes.toBytes("cf"),Bytes.toBytes("city_name")));
return new Tuple3<String, String, String>(row_key,p_name,cityName);
}

在主类中调用。

//关联维度表
SingleOutputStreamOperator<Tuple3<String,String,String>> resultStream = dataSource.map(new HBaseMapJoinFun());
resultStream.print().setParallelism(1);

1.2 异步lookup数据库关联

异步实时数据库lookup关联需要借助AsyncIO来异步访问维表数据。AsyncIO可以充分利用数据库提供的异步Client库并发处理lookup请求,提高Task并行实例的吞吐量。

相较于同步lookup,异步方式可大大提高数据库查询的吞吐量,但相应的也会加大数据库的负载,并且由于查询只能查当前时间点的维度数据,因此可能造成数据查询结果的不准确。

​编辑

AsyncIO提供lookup结果的有序和无序输出,由用户自己选择是否保证event的顺序。

示例代码参考如下:

创建Join类并继承RichAsyncFunction抽象类。

public class HBaseAyncJoinFun extends RichAsyncFunction<Tuple2<String,String>, Tuple3<String,String,String>> {

在open方法中实现连接数据库(存储了维度表的信息)。

public void open(Configuration parameters) throws Exception {
org.apache.hadoop.conf.Configuration hconf= HBaseConfiguration.create();
InputStream hbaseConf = DimSource.class.getClassLoader().getResourceAsStream("hbase-site.xml");
InputStream hdfsConf = DimSource.class.getClassLoader().getResourceAsStream("hdfs-site.xml");
InputStream coreConf = DimSource.class.getClassLoader().getResourceAsStream("core-site.xml");
hconf.addResource(hdfsConf);
hconf.addResource(hbaseConf);
hconf.addResource(coreConf);
if (User.isHBaseSecurityEnabled(hconf)){
String userName = "dl_rt";
String keyTabFile = "/opt/kerberos/kerberos-keytab/keytab";
LoginUtil.setJaasConf(ZOOKEEPER_DEFAULT_LOGIN_CONTEXT_NAME, userName, keyTabFile);
}else {
LOG.error("conf load error!");
}
final ExecutorService threadPool = Executors.newFixedThreadPool(2,
new ExecutorThreadFactory("hbase-aysnc-lookup-worker", Threads.LOGGING_EXCEPTION_HANDLER));
try{
connection = ConnectionFactory.createAsyncConnection(hconf).get();
table=connection.getTable(TableName.valueOf(table_name),threadPool);
}catch (InterruptedException | ExecutionException e){
LOG.error("Exception while creating connection to HBase.",e);
throw new RuntimeException("Cannot create connection to HBase.",e);
}

在AsyncInvoke方法中实现异步关联,并返回结果。

@Override
public void asyncInvoke(Tuple2<String, String> input, ResultFuture<Tuple3<String, String, String>> resultFuture) throws Exception {
LOG.info("Search hbase data by key .");
String row_key = input.f1;
String p_name = input.f0;
byte[] familyName = Bytes.toBytes("cf");
byte[] qualifier = Bytes.toBytes("city_name");
byte[] rowKey = Bytes.toBytes(row_key);
Get get = new Get(rowKey);
get.addColumn(familyName,qualifier);
CompletableFuture<Result> responseFuture = table.get(get);
responseFuture.whenCompleteAsync(
(result, throwable) -> {
if (throwable != null){
if (throwable instanceof TableNotFoundException){
LOG.error("Table '{}' not found", table_name,throwable);
resultFuture.completeExceptionally(
new RuntimeException("HBase table '"+table_name+"' not found.",throwable)
);
}else {
LOG.error(String.format("HBase asyncLookup error,retry times = %d",1),throwable);
responseFuture.completeExceptionally(throwable);
}
}else{
List list = new ArrayList<Tuple3<String, String, String>>();
if (result.isEmpty()){
String cityName="";
list.add(new Tuple3<String,String,String>(row_key,p_name,cityName));
resultFuture.complete(list);
}else{
String cityName = Bytes.toString(result.getValue(Bytes.toBytes("cf"),Bytes.toBytes("city_name")));
list.add(new Tuple3<String,String,String>(row_key,p_name,cityName));
resultFuture.complete(list);
}
}
}
); }

在主方法中调用。

//异步关联维度表
DataStream<Tuple3<String,String,String>> unorderedResult = AsyncDataStream.unorderedWait(dataSource, new HBaseAyncJoinFun(),
5000L, TimeUnit.MILLISECONDS,2).setParallelism(2);
unorderedResult.print();

此处使用unorderedWait方式,允许返回结果存在乱序。

1.3 带缓存的数据库lookup关联

带缓存的数据库lookup关联是对上述两种方式的优化,通过增加缓存机制来降低查询数据库的请求数量,而且缓存不需要通过 Checkpoint 机制持久化,可以采用本地缓存,例如Guava Cache可以比较轻松的实现。

此种方式的问题在于缓存的数据无法及时更新,可能会造成关联数据不正确的问题。

​编辑

02 预加载维表关联

预加载维表关联是在作业启动时就把维表全部加载到内存中,因此此种方式只适用于维度表数据量不大的场景。相较于lookup方式,预加载维表可以获得更好的性能。

预加载维表关联还可以再细分为四种方式:启动时预加载维表、启动时预加载分区维表、启动时预加载维表并定时刷新和启动时预加载维表并实时lookup数据库。

预加载维表的各种细分方案可根据实际应用场景进行结合应用,以此来满足不同的场景需求。

2.1 启动时预加载维表

启动时预加载维表实现比较简单,作业初始化时,在用户函数的open方法中读取数据库的维表数据放到内存中,且缓存的维表数据不作为State,每次重启时open方法都被再次执行,从而加载新的维表数据。

​编辑

此方法需要占用内存来存储维度表数据,不支持大数据量的维度表,且维度表加载入内存后不能实时更新,因此只适用于对维度表更新要求不高且数据量小的场景。

2.2 启动时预加载分区维表

对于维表比较大的情况,可以在启动预加载维表基础之上增加分区功能。简单来说就是将数据流按字段进行分区,然后每个Subtask只需要加在对应分区范围的维表数据。此种方式一定要自定义分区,不要用KeyBy。

​编辑

2.3 启动时预加载维表并定时刷新

预加载维度数据只有在Job启动时才会加载维度表数据,这会导致维度数据变更无法被识别,在open方法中初始化一个额外的线程来定时更新内存中的维度表数据,可以一定程度上缓解维度表更新问题,但无法彻底解决。

​编辑

示例代码参考如下:

public class ProLoadDimMap extends RichMapFunction<Tuple2<String,Integer>,Tuple2<String,String>> {
private static final Logger LOG = LoggerFactory.getLogger(ProLoadDimMap.class.getName()); ScheduledExecutorService executor = null;
private Map<String,String> cache; @Override
public void open(Configuration parameters) throws Exception {
executor.scheduleAtFixedRate(new Runnable() {
@Override
public void run() {
try {
load();
} catch (Exception e) {
e.printStackTrace();
}
}
},5,5, TimeUnit.MINUTES);//每隔 5 分钟拉取一次维表数据
} @Override
public void close() throws Exception { }
@Override
public Tuple2<String, String> map(Tuple2<String, Integer> stringIntegerTuple2) throws Exception {
String username = stringIntegerTuple2.f0;
Integer city_id = stringIntegerTuple2.f1;
String cityName = cache.get(city_id.toString());
return new Tuple2<String,String>(username,cityName);
} public void load() throws Exception {
Class.forName("com.mysql.jdbc.Driver");
Connection con = DriverManager.getConnection("jdbc:mysql://172.XX.XX.XX:XX06/yumd?useSSL=false&characterEncoding=UTF-8", "root", "Root@123");
PreparedStatement statement = con.prepareStatement("select city_id,city_name from city_dim;");
ResultSet rs = statement.executeQuery();
//全量更新维度数据到内存
while (rs.next()) {
String cityId = rs.getString("city_id");
String cityName = rs.getString("city_name");
cache.put(cityId, cityName);
}
con.close();
}
}

2.4 启动时预加载维表并实时lookup数据库

此种方案就是将启动预加载维表和实时look两种方式混合使用,将预加载的维表作为缓存给实时lookup使用,未命中则到数据库里查找。该方案可解决关联不上的问题。

​编辑

03 广播维度表

广播维度表方案是将维度表数据用流的方式接入Flink Job 程序,并将维度表数据进行广播,再与事件流数据进行关联,此种方式可以及时获取维度表的数据变更,但因数据保存在内存中,因此支持的维度表数据量较小。

示例代码参考如下:

首先将维度表进行广播。

//维度数据源
DataStream<Tuple2<Integer,String>> dimSource = env.addSource(new DimSource1()); // 生成MapStateDescriptor
MapStateDescriptor<Integer,String> dimState = new MapStateDescriptor<Integer, String>("dimState",
BasicTypeInfo.INT_TYPE_INFO,BasicTypeInfo.STRING_TYPE_INFO);
BroadcastStream<Tuple2<Integer,String>> broadcastStream = dimSource.broadcast(dimState);

实现BroadcastProcessFunction类的processElement方法处理事实流与广播流的关联,并返回关联结果。

SingleOutputStreamOperator<String> output = dataSource.connect(broadcastStream).process(
new BroadcastProcessFunction<Tuple2<String, Integer>, Tuple2<Integer, String>, String>() {
@Override
public void processElement(Tuple2<String, Integer> input, ReadOnlyContext readOnlyContext, Collector<String> collector) throws Exception {
ReadOnlyBroadcastState<Integer,String> state = readOnlyContext.getBroadcastState(dimState);
String name = input.f0;
Integer city_id = input.f1;
String city_name="NULL";
if (state.contains(city_id)){
city_name=state.get(city_id);
collector.collect("result is : "+name+" ,"+city_id+" ,"+city_name);
}
}

实现BroadcastProcessFunction类的processBroadcastElement方法处理广播流数据,将新的维度表数据进行广播。

@Override
public void processBroadcastElement(Tuple2<Integer, String> input, Context context, Collector<String> collector) throws Exception {
LOG.info("收到广播数据:"+input);
context.getBroadcastState(dimState).put(input.f0,input.f1);
}

04 Temporal Table Function Join

Temporal Table Function Join仅支持在Flink SQL API中使用,需要将维度表数据作为流的方式传入Flink Job。该种方案可支持大数据量的维度表,且维度表更新及时,关联数据准确性更高,缺点是会占用状态后端和内存的资源,同时自行实现的代码复杂度过高。

Temporal Table是持续变化表上某一时刻的视图,Temporal Table Function是一个表函数,传递一个时间参数,返回Temporal Table这一指定时刻的视图。可以将维度数据流映射为Temporal Table,主流与这个Temporal Table进行关联,可以关联到某一个版本(历史上某一个时刻)的维度数据。

​编辑

示例代码参考如下:

public class TemporalFunTest {
public static void main(String[] args) throws Exception {
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
EnvironmentSettings bsSettings = EnvironmentSettings.newInstance().inStreamingMode().build();
StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env, bsSettings);
env.setParallelism(1); //定义主流
DataStream<Tuple3<String,Integer,Long>> dataSource = env.addSource(new EventSource2())
.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<Tuple3<String,Integer,Long>>(Time.seconds(0)){
@Override
public long extractTimestamp(Tuple3<String, Integer, Long> stringIntegerLongTuple3) {
return stringIntegerLongTuple3.f2;
}
}); //定义维度流
DataStream<Tuple3<Integer, String, Long>> cityStream = env.addSource(new DimSource())
.assignTimestampsAndWatermarks(
//指定水位线、时间戳
new BoundedOutOfOrdernessTimestampExtractor<Tuple3<Integer, String, Long>>(Time.seconds(0)) {
@Override
public long extractTimestamp(Tuple3<Integer, String, Long> element) {
return element.f2;
}
});
//主流,用户流, 格式为:user_name、city_id、ts
Table userTable = tableEnv.fromDataStream(dataSource,"user_name,city_id,ts.rowtime");
//定义城市维度流,格式为:city_id、city_name、ts
Table cityTable = tableEnv.fromDataStream(cityStream,"city_id,city_name,ts.rowtime");
tableEnv.createTemporaryView("userTable", userTable);
tableEnv.createTemporaryView("cityTable", cityTable); //定义一个TemporalTableFunction
TemporalTableFunction dimCity = cityTable.createTemporalTableFunction("ts", "city_id");
//注册表函数
tableEnv.registerFunction("dimCity", dimCity); Table u = tableEnv.sqlQuery("select * from userTable");
u.printSchema();
tableEnv.toAppendStream(u, Row.class).print("user streaming receive : "); Table c = tableEnv.sqlQuery("select * from cityTable");
c.printSchema();
tableEnv.toAppendStream(c, Row.class).print("city streaming receive : "); //关联查询
Table result = tableEnv
.sqlQuery("select u.user_name,u.city_id,d.city_name,u.ts " +
"from userTable as u " +
", Lateral table (dimCity(u.ts)) d " +
"where u.city_id=d.city_id");
//打印输出
DataStream resultDs = tableEnv.toAppendStream(result, Row.class);
resultDs.print("\t\t join result out:");
env.execute("joinDemo"); }
}

最后,总结各种维度表关联方案的特点如下:​编辑

中电金信:技术实践|Flink维度表关联方案解析的更多相关文章

  1. 10.Flink实时项目之订单维度表关联

    1. 维度查询 在上一篇中,我们已经把订单和订单明细表join完,本文将关联订单的其他维度数据,维度关联实际上就是在流中查询存储在 hbase 中的数据表.但是即使通过主键的方式查询,hbase 速度 ...

  2. 字节跳动基于ClickHouse优化实践之“多表关联查询”

    更多技术交流.求职机会.试用福利,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 相信大家都对大名鼎鼎的ClickHouse有一定的了解了,它强大的数据分析性能让人印象深刻.但在字节大量 ...

  3. MapReduce 中的两表 join 方案解析

    1. 概述 在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的.而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的 ...

  4. HAWQ取代传统数仓实践(十二)——维度表技术之分段维度

    一.分段维度简介 在客户维度中,最具有分析价值的属性就是各种分类,这些属性的变化范围比较大.对某个个体客户来说,可能的分类属性包括:性别.年龄.民族.职业.收入和状态,例如,新客户.活跃客户.不活跃客 ...

  5. HAWQ取代传统数仓实践(八)——维度表技术之角色扮演维度

    单个物理维度可以被事实表多次引用,每个引用连接逻辑上存在差异的角色维度.例如,事实表可以有多个日期,每个日期通过外键引用不同的日期维度,原则上每个外键表示不同的日期维度视图,这样引用具有不同的含义.这 ...

  6. HAWQ取代传统数仓实践(十一)——维度表技术之维度合并

    有一种合并维度的情况,就是本来属性相同的维度,因为某种原因被设计成重复的维度属性.例如,在销售订单示例中,随着数据仓库中维度的增加,我们会发现有些通用的数据存在于多个维度中.客户维度的客户地址相关信息 ...

  7. HAWQ取代传统数仓实践(九)——维度表技术之退化维度

    退化维度技术减少维度的数量,简化维度数据仓库模式.简单的模式比复杂的更容易理解,也有更好的查询性能.        有时,维度表中除了业务主键外没有其它内容.例如,在本销售订单示例中,订单维度表除了订 ...

  8. HAWQ取代传统数仓实践(十)——维度表技术之杂项维度

    一.什么是杂项维度 简单地说,杂项维度就是一种包含的数据具有很少可能值的维度.事务型商业过程通常产生一系列混杂的.低基数的标志位或状态信息.与其为每个标志或属性定义不同的维度,不如建立单独的将不同维度 ...

  9. HAWQ取代传统数仓实践(七)——维度表技术之维度子集

    有些需求不需要最细节的数据.例如更想要某个月的销售汇总,而不是某天的数据.再比如相对于全部的销售数据,可能对某些特定状态的数据更感兴趣等.此时事实数据需要关联到特定的维度,这些特定维度包含在从细节维度 ...

  10. 子弹短信光鲜的背后:网易云信首席架构师分享亿级IM平台的技术实践

    本文原文内容来自InfoQ的技术分享,本次有修订.勘误和加工,感谢原作者的分享. 1.前言 自从2018年8月20日子弹短信在锤子发布会露面之后(详见<老罗最新发布了“子弹短信”这款IM,主打熟 ...

随机推荐

  1. llama.cpp推理流程和常用函数介绍

    llama.cpp是一个高性能的CPU/GPU大语言模型推理框架,适用于消费级设备或边缘设备.开发者可以通过工具将各类开源大语言模型转换并量化成gguf格式的文件,然后通过llama.cpp实现本地推 ...

  2. Java日期时间API系列36-----Jdk8中java.time包中的新的日期时间API类应用,使用LocalTime计算十二时辰。

    十二时辰,古代劳动人民把一昼夜划分成十二个时段,每一个时段叫一个时辰.二十四小时和十二时辰对照表:     时辰 时间 24时制 子时 深夜 11:00 - 凌晨 01:00 23:00 - 01 : ...

  3. 前端工程化解决方案webpack使用小结

    前端工程化解决方案webpack,模块化.组件化.规范化.自动化,使得前端开发更加高效. 功能:代码压缩混淆.处理浏览器端js的兼容性.以模块化的方式处理项目中的资源 webpack插件:clean- ...

  4. 015 Python 的输入输出和字符串格式化(终于可以和计算机交流了)

    #!/usr/bin/env python # -*- coding:utf-8 -*- # Datatime:2022/7/26 20:11 # Filename:015 Python 的输入输出和 ...

  5. kotlin更多语言结构——>注解

    注解声明 注解是将元数据附加到代码的方法.要声明注解,请将 annotation 修饰符放在类的前面 annotation class Fancy 注解的附加属性可以通过用元注解标注注解类来指定 - ...

  6. 使用rancher cli对接k8s

    一.获得rancher的token 1.进入rancher,点击右上角弹出框的ApI&Keys 2.进入页面后选择添加key 3.注意,这里的作用集群范围必须不能指定,否则在jenkins服务 ...

  7. 人形机器人是未来?6只手臂加AI模型,异形机器人重塑种植业。

    图源:reddit user IlustriousTea 近日,一则视频在媒体上引起了人们的讨论.国外一处苹果园里,机械嗡鸣声中,六只机械手熟练且快速地采摘成熟的苹果. 这是2018年于美国加利福尼亚 ...

  8. 你还用ES存请求日志?ClickHouse+Vector打造最强Grafana日志分析看板

    为什么要做NGINX日志分析看板 Grafana官网的dashboards有NGINX日志采集到ES数据源的展示看板,也有采集到LOKI数据源的展示看板,唯独没有采集到ClickHouse数据源的展示 ...

  9. sprintboot-aop切面编程demo

    AOP(面向切面编程)的核心概念是"切面". 切面是一个跨越多个对象的类,它封装了横切关注点的具体实现.通过定义切面,开发人员可以将通用功能从业务逻辑中分离出来,形成独立的模块.在 ...

  10. 如何手写实现 JSON Parser

    JSON.parse 是我们在前端开发中经常会用到API,如果我们要自己实现一个JSON.parse,我们应该怎么实现呢?今天我们就试着手写一个JSON Parser,了解下其内部实现原理. JSON ...