Flink sql 之 join 与 StreamPhysicalJoinRule (源码解析)
源码分析基于flink1.14
Join是flink中最常用的操作之一,但是如果滥用的话会有很多的性能问题,了解一下Flink源码的实现原理是非常有必要的
本文的join主要是指flink sql的Regular join 也就是平时我们的双流join中普通的full join ,left join,right join
先找到calcite的relNode转换rule
会将逻辑节点logiceJoin转换成flink的FlinkLogicalJoin
接着看下哪里Rule会转换这个FlinkLogicalJoin
这里会将这种普通join也就是regularJoin给匹配上
条件是
不是这三种join,并且
也不能join表达式包含时间属性
匹配上次rule以后,接着
返回了StreamPhysicalJoin这个StreamPhysicalRel是个物理节点
他的translateToExecNode方法会返回StreamExecJoin,这个类就是我们具体的逻辑了
来看一下
首先会根据会join的类型,确定两个流那个需要输出,如果是fulljoin两个流都会输出,left join就是左流需要outer,right join就是right流需要outer
之后创建了具体的Operator,来看下这个StreamingJoinOperator
先看一下这个类里面两个比较重要的状态
可以看到,左右流都会保存一个状态
看下状态包装类的描述
总共就三,方法,分别是加入数据,撤回数据,获取这个数据关联上的所有数据
在open方法里面会根据上面计算的左右流是否需要输出来初始化这个两个状态
这里状态包装类的创建,将根据数据类型分为三种
1. 流带主键,且join条件包含了主键
这样数据唯一,就只用ValueState来存
2. 流带主键,但join条件没有包含主键
这里就用MapState来存了,每次根据主键更新
3. 流不带主键
就用map,直接把record当key存了
接着看processElement方法
这里详细的代码就不列出来了太复杂了,想看的直接看这个类
org.apache.flink.table.runtime.operators.join.stream.StreamingJoinOperator.processElement()
梳理逻辑我们还是来看下伪代码
主要分为两段
1. 如果是 +Insert / +Update 类型的数据
判断输入数据的流需不需要输出
如果需要输出
看下和另外一个流关联的上不
关联的上输出 +I[record+other]s
关联不上输出 +I[record+null]
将数据加入状态中
如果不需要输出
将数据加入状态中
如果与另外一个流的数据关联上了
如果另外一个流要outer, 输出 +I[record+other]s
如果另外一个流不用输出 ,输出 +I/+U[record+other]s
1. 如果是 -Delete / -Update 类型的数据
状态里面先撤回这条数据
如果与另外流没有匹配上,如果输入数据的流需要输出,则输出 -D[record+null]
如果与另外一条流匹配上了
当前流outer,发送 -D[record+other]s,如果是inner join发送-D/-U[record+other]s
最后的最后
用两个流join的key作为状态的selecter来完成transform的构建就完成了
总结一下:
Flink会根据join的key作为状态分流的selecter,根据表是否有主键,join条件是否包含主键,来创建对应的state数据结构,来优化状态的读写
两条流会根据join类型,来设置此流需不需要输出outer
当数据进入,查询另一侧的流是否有数据可以关联上,以及两条流的outer类型,来确定向下游发送的撤回和新增的数据
Flink sql 之 join 与 StreamPhysicalJoinRule (源码解析)的更多相关文章
- Flink sql 之 TopN 与 StreamPhysicalRankRule (源码解析)
基于flink1.14的源码做解析 公司内有很多业务方都在使用我们Flink sql平台做TopN的计算,今天同事突然问到我,Flink sql 是怎么实现topN的 ? 蒙圈了,这块源码没看过啊 , ...
- [源码解析] GroupReduce,GroupCombine 和 Flink SQL group by
[源码解析] GroupReduce,GroupCombine和Flink SQL group by 目录 [源码解析] GroupReduce,GroupCombine和Flink SQL grou ...
- Flink 源码解析 —— 深度解析 Flink 是如何管理好内存的?
前言 如今,许多用于分析大型数据集的开源系统都是用 Java 或者是基于 JVM 的编程语言实现的.最着名的例子是 Apache Hadoop,还有较新的框架,如 Apache Spark.Apach ...
- [源码解析] 当 Java Stream 遇见 Flink
[源码解析] 当 Java Stream 遇见 Flink 目录 [源码解析] 当 Java Stream 遇见 Flink 0x00 摘要 0x01 领域 1.1 Flink 1.2 Java St ...
- Flink 源码解析 —— 源码编译运行
更新一篇知识星球里面的源码分析文章,去年写的,周末自己录了个视频,大家看下效果好吗?如果好的话,后面补录发在知识星球里面的其他源码解析文章. 前言 之前自己本地 clone 了 Flink 的源码,编 ...
- Flink 源码解析 —— 如何获取 ExecutionGraph ?
https://t.zsxq.com/UnA2jIi 博客 1.Flink 从0到1学习 -- Apache Flink 介绍 2.Flink 从0到1学习 -- Mac 上搭建 Flink 1.6. ...
- Flink 源码解析 —— 如何获取 JobGraph?
JobGraph https://t.zsxq.com/naaMf6y 博客 1.Flink 从0到1学习 -- Apache Flink 介绍 2.Flink 从0到1学习 -- Mac 上搭建 F ...
- Flink 源码解析 —— Flink JobManager 有什么作用?
JobManager 的作用 https://t.zsxq.com/2VRrbuf 博客 1.Flink 从0到1学习 -- Apache Flink 介绍 2.Flink 从0到1学习 -- Mac ...
- Flink 源码解析 —— JobManager 处理 SubmitJob 的过程
JobManager 处理 SubmitJob https://t.zsxq.com/3JQJMzZ 博客 1.Flink 从0到1学习 -- Apache Flink 介绍 2.Flink 从0到1 ...
随机推荐
- [考试总结]noip模拟46
脑袋确实是不好使了需要回家暴颓治疗 数数数树鼠树 真好玩. 数数 大水题一个,妥妥的签到题目,然后... 我没签上 气展了!!! 其实我还是想麻烦了. 就是我们实际上就是排序之后每一次找头上和尾巴上的 ...
- Redis的读写分离
1.概述 随着企业业务的不断扩大,请求的并发量不断增长,Redis可能终会出现无法负载的情况,此时我们就需要想办法去提升Redis的负载能力. 读写分离(主从复制)是一个比较简单的扩展方案,使用多台机 ...
- Appium问题解决方案(8)- selenium.common.exceptions.WebDriverException: Message: An unknown server-side error occurred while processing the command. Original error: Could not sign with default certificate.
背景 运行时代码报错: selenium.common.exceptions.WebDriverException: Message: An unknown server-side error occ ...
- Java并发之Synchronized机制详解
带着问题阅读 1.Synchronized如何使用,加锁的粒度分别是什么 2.Synchronized的实现机制是什么 3.Synchronized是公平锁吗 4.Java对Synchronized做 ...
- epoll代码框架
epoll代码实现框架: #define MAX_EVENTS 10 struct epoll_event ev, events[MAX_EVENTS]; int listen_sock, conn_ ...
- 模拟BS服务器
一.模拟BS服务器分析 二.BS模拟服务器代码实现 图片都是单独请求,后台单独线程,这边是通过构造方法传入的Runable接口的实现类匿名对象创建线程: 创建本地输入流读取到网络输出流传过来的信息再放 ...
- Go并发编程--正确使用goroutine
目录 1. 对创建的gorouting负载 1.1 不要创建一个你不知道何时退出的 goroutine 1.1.1 不要帮别人做选择 1.1.2 不要作为一个旁观者 1.1.3 不要创建不知道什么时候 ...
- 借助AWR报告分析解决oracleCPU过高的问题
原文地址:http://www.cnblogs.com/crystal-guoguo/p/4213458.html 简介:在oracle数据库中,有两个非常实用的自带监控工具EM(Enterprise ...
- find命令查找某一个时间点以后创建或者修改的文件
touch -t 201711211615.47 starttouch -t 201711211617.47 end find ./* -newer start |xargs ls -al-rw-r- ...
- 简单操作:10分钟实现在kubernetes(k8s)里面部署服务器集群并访问项目(docker三)
前言 经过docker安装.k8s开启并登录,我们终于到 "部署k8s服务器集群并访问项目" 这一步了,实现的过程中有太多坑,好在都填平了,普天同庆. 在进行当前课题之前,我们需要 ...