Flink实例(五十): Operators(十)多流转换算子(五)coGroup 与union
参考链接:https://mp.weixin.qq.com/s/BOCFavYgvNPSXSRpBMQzBw
需求场景分析
需求场景
需求诱诱诱来了。。。数据产品妹妹想要统计单个短视频粒度的「点赞,播放,评论,分享,举报」五类实时指标,并且汇总成 photo_id、1 分钟时间粒度的实时视频消费宽表(即宽表字段至少为:「photo_id + play_cnt + like_cnt + comment_cnt + share_cnt + negative_cnt + minute_timestamp」)产出至实时大屏。
问题在于对同一个视频,五类视频消费行为的触发机制以及上报时间是不同,也就决定了对实时处理来说五类行为日志对应着五个不同的数据源。sql boy 们自然就想到了 join 操作将五类消费行为日志合并,可是实时 join(cogroup) 真的那么完美咩~,下文细谈。
source 输入以及特点
首先分析下需求中的 source 特点:
- photo_id 粒度 play(播放)、like(点赞)、comment(评论)、share(分享)、negative(举报)明细数据,「用户播放(点赞、评论...)n 次,客户端\服务端就会上传 n 条播放(点赞、评论...)日志至数据源」
- 五类视频消费行为日志的 source schema 都为:「photo_id + timestamp + 其他维度」
sink 输出以及特点
sink 特点如下:
- photo_id 粒度 play(播放)、like(点赞)、comment(评论)、share(分享)、negative(举报)「1 分钟级别窗口聚合数据」
- 实时视频消费宽表 sink schema 为:「photo_id + play_cnt + like_cnt + comment_cnt + share_cnt + negative_cnt + minute_timestamp」
source、sink 样例数据
source 数据:
| photo_id | timestamp | user_id | 说明 |
|---|---|---|---|
| 1 | 2020/10/3 11:30:33 | 3 | 播放 |
| 1 | 2020/10/3 11:30:33 | 4 | 播放 |
| 1 | 2020/10/3 11:30:33 | 5 | 播放 |
| 1 | 2020/10/3 11:30:33 | 4 | 点赞 |
| 2 | 2020/10/3 11:30:33 | 5 | 点赞 |
| 1 | 2020/10/3 11:30:33 | 5 | 评论 |
sink 数据:
| photo_id | timestamp | play_cnt | like_cnt | comment_cnt |
|---|---|---|---|---|
| 1 | 2020/10/3 11:30:00 | 3 | 1 | 1 |
| 2 | 2020/10/3 11:30:00 | 0 | 1 | 0 |
我们已经对数据源输入和输出有了完整的分析,那就瞧瞧有什么方案可以实现上述需求吧。
实现方案
- 方案1:「本小节 cogroup 方案」直接消费原始日志数据,对五类不同的视频消费行为日志使用 cogroup 或者 join 进行窗口聚合计算
- 方案2:对五类不同的视频消费行为日志分别单独聚合计算出分钟粒度指标数据,下游再对聚合好的指标数据按照 photo_id 进行合并
- 方案3:「本小节 union 方案」既然数据源 schema 相同,直接对五类不同的视频消费行为日志做 union 操作,在后续的窗口函数中对五类指标进行聚合计算。后文介绍 union 方案的设计过程
先上 cogroup 方案的示例代码。
cogroup
cogroup 实现示例如下,示例代码直接使用了处理时间(也可替换为事件时间~),因此对数据源的时间戳做了简化(直接干掉):
public class Cogroup {
public static void main(String[] args) throws Exception {
final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
// Long -> photo_id 播放一次
DataStream<Long> play = SourceFactory.getDataStream(xxx);
// Long -> photo_id 点赞一次
DataStream<Long> like = SourceFactory.getDataStream(xxx);
// Long -> photo_id 评论一次
DataStream<Long> comment = SourceFactory.getDataStream(xxx);
// Long -> photo_id 分享一次
DataStream<Long> share = SourceFactory.getDataStream(xxx);
// Long -> photo_id 举报一次
DataStream<Long> negative = SourceFactory.getDataStream(xxx);
// Tuple3<Long, Long, Long> -> photo_id + play_cnt + like_cnt 播放和点赞的数据合并
DataStream<Tuple3<Long, Long, Long>> playAndLikeCnt = play
.coGroup(like)
.where(KeySelectorFactory.get(Function.identity()))
.equalTo(KeySelectorFactory.get(Function.identity()))
.window(TumblingProcessingTimeWindows.of(Time.seconds(60)))
.apply(xxx1);
// Tuple4<Long, Long, Long, Long> -> photo_id + play_cnt + like_cnt + comment_cnt 播放、点赞、评论的数据合并
DataStream<Tuple4<Long, Long, Long, Long, Long>> playAndLikeAndComment = playAndLikeCnt
.coGroup(comment)
.where(KeySelectorFactory.get(playAndLikeModel -> playAndLikeModel.f0))
.equalTo(KeySelectorFactory.get(Function.identity()))
.window(TumblingProcessingTimeWindows.of(Time.seconds(60)))
.apply(xxx2);
// Tuple5<Long, Long, Long, Long, Long> -> photo_id + play_cnt + like_cnt + comment_cnt + share_cnt 播放、点赞、评论、分享的数据合并
DataStream<Tuple5<Long, Long, Long, Long, Long, Long>> playAndLikeAndCommentAndShare = playAndLikeAndComment
.coGroup(share)
.where(KeySelectorFactory.get(playAndLikeAndCommentModel -> playAndLikeAndCommentModel.f0))
.equalTo(KeySelectorFactory.get(Function.identity()))
.window(TumblingProcessingTimeWindows.of(Time.seconds(60)))
.apply(xxx2);
// Tuple7<Long, Long, Long, Long, Long, Long, Long> -> photo_id + play_cnt + like_cnt + comment_cnt + share_cnt + negative_cnt + minute_timestamp 播放、点赞、评论、分享、举报的数据合并
// 同上~
DataStream<Tuple7<Long, Long, Long, Long, Long, Long, Long>> playAndLikeAndCommentAndShare = ***;
env.execute();
}
}
粗暴一想,上面这样一搞不就结束了么,事情没那么简单,我们来做一个详细点的分析。
上述实现可能会存在的问题点
- 「从 flink 消费到 play 数据源的一条数据到最终产出这条数据被聚合后的数据,整个过程的数据延迟 > 3 分钟...」
- 「如果数据源持续增加(比如添加其他视频消费操作数据源),则整个任务算子变多,数据链路更长,任务稳定性会变差,产出数据延迟也会随着窗口计算变多,延迟更久」
逆推链路
1 - 5 为逆推的整条链路。
- 「1.五类指标的数据都在单个窗口中计算」
- 「2.五类指标的窗口 model 相同」
- 「3.keyby 中的 key 一致(photo_id)」
- 「4.五类指标的数据源都为 photo_id 粒度,并且五类数据源的 model 都必须相同,并且可以做合并」
- 「5.union 算子可以对五类数据源做合并!!!」
话不多说直接上 union 方案代码。
public class Union {
public static void main(String[] args) throws Exception {
final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
// Tuple2<Long, String> -> photo_id + "PLAY"标签
DataStream<Tuple2<Long, String>> play = SourceFactory.getDataStream(xxx);
// Tuple2<Long, String> -> photo_id + "LIKE"标签
DataStream<Tuple2<Long, String>> like = SourceFactory.getDataStream(xxx);
// Tuple2<Long, String> -> photo_id + "COMMENT"标签
DataStream<Tuple2<Long, String>> comment = SourceFactory.getDataStream(xxx);
// Tuple2<Long, String> -> photo_id + "SHARE"标签
DataStream<Tuple2<Long, String>> share = SourceFactory.getDataStream(xxx);
// Tuple2<Long, String> -> photo_id + "NEGATIVE"标签
DataStream<Tuple2<Long, String>> negative = SourceFactory.getDataStream(xxx);
// Tuple5<Long, Long, Long, Long> -> photo_id + play_cnt + like_cnt + comment_cnt + window_start_timestamp
DataStream<Tuple3<Long, Long, Long>> playAndLikeCnt = play
.union(like)
.union(comment)
.union(share)
.union(negative)
.keyBy(KeySelectorFactory.get(i -> i.f0))
.timeWindow(Time.seconds(60))
.process(xxx);
env.execute();
}
}
可以发现,无论上游数据源怎样进行变化,上述 union 方案中始终可以保持只有一个窗口算子处理和计算数据,则可以解决之前列举的数据延迟以及 flink 任务算子过多的问题。
在数据源的 schema 相同(或者不同但经过处理之后可以 format 成相同格式)的情况下,或者处理逻辑相同的话,可以使用 union 进行逻辑简化。
总结
本文首先介绍了需求场景,第二部分分析了使用 cogroup(案例代码)是如何解决此需求场景,再分析了此实现方案可能会存在一些问题,并引出了 union 解决方案的逆推和设计思路。在第三部分针对此场景使用 union 代替 cogroup 进行了一定程度上的优化。
Flink实例(五十): Operators(十)多流转换算子(五)coGroup 与union的更多相关文章
- 十天学Linux内核之第五天---有关Linux文件系统实现的问题
原文:十天学Linux内核之第五天---有关Linux文件系统实现的问题 有时间睡懒觉了,却还是五点多醒了,不过一直躺倒九点多才算起来,昨晚一直在弄飞凌的嵌入式开发板,有些问题没解决,自己电脑系统的问 ...
- 疯狂JAVA讲义---第十二章:Swing编程(五)进度条和滑动条
http://blog.csdn.net/terryzero/article/details/3797782 疯狂JAVA讲义---第十二章:Swing编程(五)进度条和滑动条 标签: swing编程 ...
- [习题]输入自己的生日(年/月/日)#2 -- 日历(Calendar)控件的时光跳跃,一次跳回五年、十年前?--TodaysDate属性、VisibleDate属性
原文出處 http://www.dotblogs.com.tw/mis2000lab/archive/2013/06/10/calendar_visibledate_birthday_dropdow ...
- (十四--十五)数据库查询优化Part I
(十四--十五)数据库查询优化Part I 如果理解的有问题.欢迎大家指出.这也是我在看课记得笔记..可能会有很多问题 查询优化的重要性 请记住用户只会告诉DMBS他们想要什么样的结果,而不会告诉他们 ...
- abp(net core)+easyui+efcore实现仓储管理系统——入库管理之十(四十六)
abp(net core)+easyui+efcore实现仓储管理系统目录 abp(net core)+easyui+efcore实现仓储管理系统——ABP总体介绍(一) abp(net core)+ ...
- C# 服务端推送,十步十分钟,从注册到推送成功
目标 展示 C# 服务端集成极光推送的步骤,多图少字,有图有真相. 使用极光推送, C# 服务端推送到 Demo App,Android 手机收到推送,整理为十个步骤,使用十分钟左右,完成从注册账号到 ...
- php 接收二进制流转换成图片
php 接收二进制流转换成图片,图片类imageUpload.php如下: <?php /** * 图片类 * @author http://blog.csdn.net/haiqiao_2010 ...
- delphi 怎么将一个文件流转换成字符串(String到流,String到文件,相互转化)
//from http://kingron.myetang.com/zsfunc0d.htm (*// 标题:充分利用pascal字符串类型 说明:和PChar不同,string可以保存# ...
- Windows五种IO模型性能分析和Linux五种IO模型性能分析
Windows五种IO模型性能分析和Linux五种IO模型性能分析 http://blog.csdn.net/jay900323/article/details/18141217 http://blo ...
随机推荐
- python笔记-标准库unittest
unittest核心工作原理 unittest中最核心的四个概念是:test case, test suite, test runner, test fixture. 一个TestCase的实例就是一 ...
- 05_Python的文件操作
1.文件操作概述 # 文件是用于数据存储的单位通常用来长期存储设置,文件中的数据是以字节为单位进行顺序存储的 1.打开文件: f = open("xxx") 或 with ...
- springboot x.x.x RELEASE pom 第一行报错解决办法
springboot x.x.x RELEASE pom 第一行报错解决办法 在pom.xml 文件的properties中加入maven jar插件的版本号 <properties> & ...
- kickstart半自动安装centos系统与pxe自动安装centos系统
一.kickstart半自动安装centos系统 关闭防火墙,关闭selinux,使用system-config-kickstart生成kickstart配置文件,启动xmanger-Passive ...
- java输出1-100之间的数并求和for+while+do while实现
public static void main(String args[]) {//do while int sum = 0; //当前之和 int i = 1; //加数 do { if (i%2= ...
- 使用wireshark分析MQTT协议
网络上搜索到两种用wireshark工具分析MQTT协议的方法,都是使用wireshark插件,一种是Wireshark Generic Dissector:另一种是使用lua脚本插件(推荐使用这种方 ...
- centos 遇到/dev/mapper/cl-root 100% 解决方法
yum安装docker时报错[Errno 2] No usable temporary directory found in ['/tmp', '/var/tmp', '/usr/tmp', '/'] ...
- 一条 SQL 引发的事故,同事直接被开除!!
前言 Insert into select请慎用. 这天xxx接到一个需求,需要将表A的数据迁移到表B中去做一个备份.本想通过程序先查询查出来然后批量插入.但xxx觉得这样有点慢,需要耗费大量的网络I ...
- [算法]体积不小于V的情况下的最小价值(0-1背包)
题目 0-1背包问题,问要求体积不小于V的情况下的最小价值是多少. 相关 转移方程很容易想,初始化的处理还不够熟练,可能还可以更简明. 使用一维dp数组. 代码 import java.util.Sc ...
- Vue企业级优雅实战04-组件开发01-SVG图标组件
(后续的文章 公众号会提前一周更新,欢迎关注文末的微信公众号:程序员搞艺术) 预览本文的实现效果: # gitee git clone git@gitee.com:cloudyly/dscloudy- ...