生成Timestamp和Watermark 的三个重载方法介绍可参见上一篇博客: Flink assignAscendingTimestamps 生成水印的三个重载方法 之前想研究下Flink是怎么处理乱序的数据,看了相关的源码,加上测试,发现得到了与预期完全不相同的结果. 预期是:乱序到达的数据,flink可以基于数据的事件时间,自动整理数据,依次计算输出 结果是:在assignTimestampsAndWatermarks(assigner: AssignerWithPeriodicWate…
JobManager 的作用 https://t.zsxq.com/2VRrbuf 博客 1.Flink 从0到1学习 -- Apache Flink 介绍 2.Flink 从0到1学习 -- Mac 上搭建 Flink 1.6.0 环境并构建运行简单程序入门 3.Flink 从0到1学习 -- Flink 配置文件详解 4.Flink 从0到1学习 -- Data Source 介绍 5.Flink 从0到1学习 -- 如何自定义 Data Source ? 6.Flink 从0到1学习 --…
TaskManager 有什么作用 https://t.zsxq.com/RZbu7yN 博客 1.Flink 从0到1学习 -- Apache Flink 介绍 2.Flink 从0到1学习 -- Mac 上搭建 Flink 1.6.0 环境并构建运行简单程序入门 3.Flink 从0到1学习 -- Flink 配置文件详解 4.Flink 从0到1学习 -- Data Source 介绍 5.Flink 从0到1学习 -- 如何自定义 Data Source ? 6.Flink 从0到1学习…
[源码解析] Flink的groupBy和reduce究竟做了什么 目录 [源码解析] Flink的groupBy和reduce究竟做了什么 0x00 摘要 0x01 问题和概括 1.1 问题 1.2 概括 0x02 背景概念 2.1 MapReduce细分 2.2 MapReduce细分 2.3 Combine 2.4 Partition 2.5 Shuffle 2.6 Reducer 0x03 代码 0x04 从Flink JAVA API入手挖掘 4.1 GroupBy是个辅助概念 4.1…
[源码解析] Flink UDAF 背后做了什么 目录 [源码解析] Flink UDAF 背后做了什么 0x00 摘要 0x01 概念 1.1 概念 1.2 疑问 1.3 UDAF示例代码 0x02 批处理 2.1 代码 2.2 计划生成 2.3 执行 2.4 状态管理 2.5 总结 0x03 流处理 3.1 示例代码 3.2 计划生成 3.3 执行 & 状态管理 3.3.1 接受到一个新输入 3.3.2 windowState & UDAF执行 3.3.3 State & 结果…
[源码解析] Flink的Slot究竟是什么?(1) 目录 [源码解析] Flink的Slot究竟是什么?(1) 0x00 摘要 0x01 概述 & 问题 1.1 Fllink工作原理 1.2 问题 0x02 示例代码 2.1 示例代码 0x03 从Slot角度看系统划分 3.1 Flink组件 3.2 Slot的由来 3.3 资源分配 3.4 Task Manager 范畴 3.4.1 TaskManagerServices 3.4.2 TaskSlotTableImpl 3.4.3 Reso…
[源码解析] Flink 的slot究竟是什么?(2) 目录 [源码解析] Flink 的slot究竟是什么?(2) 0x00 摘要 0x01 前文回顾 0x02 注册/更新Slot 2.1 TaskExecutor注册成功 2.2 心跳机制更新Slot状态 0x03 生成ExecutionGraph阶段 0x04 调度阶段 0x05 分配资源阶段 5.1 CompletableFuture 5.1.1 Future 3 6.1.2 Future 2 6.1.3 Future 1 5.2 流程图…
目录预训练源码结构简介输入输出源码解析参数主函数创建训练实例下一句预测&实例生成随机遮蔽输出结果一览预训练源码结构简介关于BERT,简单来说,它是一个基于Transformer架构,结合遮蔽词预测和上下句识别的预训练NLP模型.至于效果:在11种不同NLP测试中创出最佳成绩关于介绍BERT的文章我看了一些,个人感觉介绍的最全面的是机器之心再放上谷歌官方源码链接:BERT官方源码在看本博客之前,读者先要了解:1.Transformer架构2.BERT模型的创新之处3.python语言及tensor…
前言 上一节咱们讲了LocalEventBus,本节来讲本地事件总线(DistributedEventBus),采用的RabbitMQ进行实现. Volo.Abp.EventBus.RabbitMQ模块内部代码并不多,RabbitMQ的操作都集中在Volo.Abp.RabbitMQ这个包中. 正文 我们从模块定义开始看,项目启动的时候分别读取了appsetting.json的配置参数和调用了RabbitMqDistributedEventBus的Initialize函数. public clas…
相信会看到这篇文章的都对Flink的时间类型(事件时间.处理时间.摄入时间)和Watermark有些了解,当然不了解可以先看下官网的介绍:https://ci.apache.org/projects/flink/flink-docs-master/dev/event_time.html 这里就会有这样一个问题:FLink 是怎么基于事件时间和Watermark处理迟到数据的呢? 在回答这个问题之前,建议大家可以看下下面的Google 的三篇论文,关于流处理的模型: https://www.vld…