本文源码基于flink1.14 在帮助用户排查任务的时候,经常会发现部分task处理的慢,在Exactly once语义时需要等待快照的对齐而白白柱塞的情况 在flink1.11版本引入了非对齐的checkpoint,来解决这种柱塞问题,所以来看看这个新特性的源码是如何实现的 先看下官网的图来总的说下实现原理,再来看看源码 flink是基于Chandy-Lamport算法来实现全局快照的,其核心就是在数据中间穿插barrier 当一个task上游同一批次所有的barrier到齐时,就可以触发快照…
转发请注明原创地址http://www.cnblogs.com/dongxiao-yang/p/8260370.html flink checkpoint 源码分析 (一)一文主要讲述了在JobManager端定时生成TriggerCheckpoint的代码部分,本文继续研究下TaskManager端如何处理收到的TriggerCheckpoint消息并执行对应的备份操作. TriggerCheckpoint消息进入TaskManager的处理路径为 handleMessage -> handl…
前面说到了  Flink的JobManager启动(源码分析)  启动了TaskManager 然后  Flink的Job启动JobManager端(源码分析)  说到JobManager会将转化得到的TDD发送到TaskManager的RPC 这篇主要就讲一下,Job在TaskManager端是如何启动的 先来看一下,TaskManager端用来接收JobManager发送过来的TDD对象的RPC接口 在TaskExecutor.java中 这个方法用于接收了一个TaskDeploymentD…
前几天在社区群上,有人问了一个问题 既然上游最小水印会决定窗口触发,那如果我上游其中一条流突然没有了数据,我的窗口还会继续触发吗? 看到这个问题,我蒙了???? 对哈,因为我是选择上游所有流中水印最小的一条作为当前水印时间,那万一最小水印的那条流突然里面没有数据了 那我的最小水印不就一直不往前走了,一直是那个没有数据流的水印了吗,因为它的水印最小,而且一直不会更新了 ????然后窗口再也不触发???? 思考了一下,发现好像也对,当我有一个上游的水印没来的时候,我就等着呗,谁知道他是不是延迟了 但…
前言 在Flink原理——容错机制一文中,已对checkpoint的机制有了较为基础的介绍,本文着重从源码方面去分析checkpoint的过程.当然本文只是分析做checkpoint的调度过程,只是尽量弄清楚整体的逻辑,没有弄清楚其实现细节,还是有遗憾的,后期还是努力去分析实现细节.文中若是有误,欢迎大伙留言指出! 本文基于Flink1.9. 1.参数设置 1.1 有关checkpoint常见的参数如下: StreamExecutionEnvironment env = StreamExecut…
转发请注明原创地址http://www.cnblogs.com/dongxiao-yang/p/8029356.html checkpoint是Flink Fault Tolerance机制的重要构成部分,flink checkpoint的核心类名为org.apache.flink.runtime.checkpoint.CheckpointCoordinator. 定期产生的checkpoint事件 flink的checkpoint是由CheckpointCoordinator内部的一个time…
转发请注明原创地址:http://www.cnblogs.com/dongxiao-yang/p/7700600.html <flink-connector-kafka consumer的topic分区分配源码>一文提到了在flink-connector-kafka的consumer初始化的时候有三种offset提交模式:KAFKA_PERIODIC,DISABLED和ON_CHECKPOINTS. 其中ON_CHECKPOINTS表示在flink做完checkpoint后主动向kafka提交…
通过前面的文章了解到 Driver将用户代码转换成streamGraph再转换成Jobgraph后向Jobmanager端提交 JobManager启动以后会在Dispatcher.java起来RPC方法submitJob(jobGraph),用于接收来自Driver转化得到的JobGraph来启动任务 具体来看jobGraph提交到JobManager的submitJob方法 前面都是一些调用链没有什么好讲的,最后到createJobManager( )方法这里 先看一下1,创建了一个jobm…
其实CEP复杂事件处理,简单来说你可以用通过类似正则表达式的方式去表示你的逻辑,表现能力非常的强,用过的人都知道 开篇先偷一张图,整体了解Flink中的CEP中的  一种重要的图  NFA非确定有限状态机 FlinkCEP在运行时会将用户的逻辑转化成这样的一个NFA Graph (nfa对象) graph 中包含状态(Flink中State对象),以及连接状态的边(Flink中StateTransition对象) 当从一个State跳变到另一个State时需要通过一条边StateTransiti…
整个Flink集群的角色分为Jobmanager和TaskManager 以Standalone为例来看一下脚本里面是怎样启动集群的 找到源码的dist这里面包含了启动的脚本文件 standalone模式下我们通过start-cluster.sh这个脚本启动 来看下里面具体做了什么 在最后调用了jobmanager.sh start 这个脚本和config.sh  中的TMSlaves 这个方法,分别启动了jobmanager和taskmanager 先看一下Jobmanager 在jobman…