一、窗口介绍

1.1 Window:时间窗口

  滚动窗口(Tumbling Window)将事件拆分成固定长度,窗口之间不重叠,窗口长度固定

例:每10s统计过去10s订单数据

  滑动窗口(Sliding Window)按照滑动步长拆分成固定长度,窗口长度固定。根据指定步长(Slide)向前滑动,步长小于窗口则窗口间重叠。

例:每10s统计过去10分钟 订单数据

  会话窗口(Session Window)两个窗口之间有一个间隙(Session Gap),大于间隙没收到消息,则该窗口关闭,窗口不重叠

1.2 数量窗口(Count Windows)

按照一定的数据量作为窗口统计

二、窗口使用

2.1 使用方式

有keyBy ⽤ window() api

没keyBy ⽤ windowAll() api ,并⾏度低

2.2 窗⼝分配器 Window Assigners

定义了如何将元素分配给窗⼝,负责将每条数据分发到正确的window窗⼝上
window() 的参数是⼀个 WindowAssigner,flink本身提供了Tumbling、Sliding 等Assigner

2.3 窗⼝触发器 trigger

⽤来控制⼀个窗⼝是否需要被触发

每个窗⼝分配器WindowAssigner 都有⼀个默认触发器,也⽀持⾃定义触发器

2.4 窗⼝ window function ,对窗⼝内的数据做啥

作用:定义了要对窗⼝中收集的数据做的计算操作
增量聚合函数:aggregate(agg函数,WindowFunction(){ })
        窗⼝保存临时数据,每进⼊⼀个新数据,会与中间数据累加,⽣成新的中间数据,再保存到窗⼝中
        常⻅的增量聚合函数有 reduceFunction、aggregateFunction
        其中:min、max、sum 都是简单的聚合操作,不需要使用⾃定义规则
        例子:AggregateFunction<IN, ACC, OUT>
                IN是输⼊类型,ACC是中间聚合状态类型,OUT是输出类型,是聚合统计当前窗⼝的数据

2.5 全窗⼝函数

apply(new processWindowFunction(){ })

描述:窗⼝先缓存该窗⼝所有元素,等窗⼝的全部数据收集起来后再触发条件计算

常⻅的全窗⼝聚合函数 windowFunction(未来可能弃⽤)、processWindowFunction(可以获取到窗⼝上下⽂ 更多信息)

WindowFunction<IN, OUT, KEY, W extends Window>

IN是输⼊类型,OUT是输出类型,KEY是分组类型,W是时间窗

如果想处理每个元素更底层的API的时候⽤,process(new KeyedProcessFunction() {processElement、onTimer})

2.6 其它知识点

一个窗口内是左闭右开

timeWindow在1.12版本过期,统⼀使⽤window。countWindow没过期

Flink窗口的更多相关文章

  1. 第08讲:Flink 窗口、时间和水印

    Flink系列文章 第01讲:Flink 的应用场景和架构模型 第02讲:Flink 入门程序 WordCount 和 SQL 实现 第03讲:Flink 的编程模型与其他框架比较 第04讲:Flin ...

  2. Flink窗口介绍及应用

    Windows是Flink流计算的核心,本文将概括的介绍几种窗口的概念,重点只放在窗口的应用上. 本实验的数据采用自拟电影评分数据(userId, movieId, rating, timestamp ...

  3. flink窗口分类

    窗口分类 按照驱动类型分类 窗口本身是截取有界数据的一种方式,所以窗口一个非常重要的信息就是"怎样截取数据".换句话说,就是以什么标准来开发和结束数据的截取. 按照驱动类型分类主要 ...

  4. 《从0到1学习Flink》—— 介绍Flink中的Stream Windows

    前言 目前有许多数据分析的场景从批处理到流处理的演变, 虽然可以将批处理作为流处理的特殊情况来处理,但是分析无穷集的流数据通常需要思维方式的转变并且具有其自己的术语(例如,"windowin ...

  5. Flink初探-为什么选择Flink

    本文主要记录一些关于Flink与storm,spark的区别, 优势, 劣势, 以及为什么这么多公司都转向Flink. What Is Flink 一个通俗易懂的概念: Apache Flink 是近 ...

  6. 阿里重磅开源全球首个批流一体机器学习平台Alink,Blink功能已全部贡献至Flink

    11月28日,Flink Forward Asia 2019 在北京国家会议中心召开,阿里在会上发布Flink 1.10版本功能前瞻,同时宣布基于Flink的机器学习算法平台Alink正式开源,这也是 ...

  7. Flink去重统计-基于自定义布隆过滤器

    一.背景说明 在Flink中对流数据进行去重计算是常有操作,如流量域对独立访客之类的统计,去重思路一般有三个: 基于Hashset来实现去重 数据存在内存,容量小,服务重启会丢失. 使用状态编程Val ...

  8. 一文搞懂Flink Window机制

    Windows是处理无线数据流的核心,它将流分割成有限大小的桶(buckets),并在其上执行各种计算. 窗口化的Flink程序的结构通常如下,有分组流(keyed streams)和无分组流(non ...

  9. 第05讲:Flink SQL & Table 编程和案例

    Flink系列文章 第01讲:Flink 的应用场景和架构模型 第02讲:Flink 入门程序 WordCount 和 SQL 实现 第03讲:Flink 的编程模型与其他框架比较 第04讲:Flin ...

  10. 第06讲:Flink 集群安装部署和 HA 配置

    Flink系列文章 第01讲:Flink 的应用场景和架构模型 第02讲:Flink 入门程序 WordCount 和 SQL 实现 第03讲:Flink 的编程模型与其他框架比较 第04讲:Flin ...

随机推荐

  1. PHP中的特殊用法

    开发中查阅别人代码的时候, 总能发现新大陆, 各种骚操作与奇技淫巧, 有些还是值得借鉴的,自然要学习一番啦 1.fastcgi_finish_request 此函数冲刷(flush)所有响应的数据给客 ...

  2. 数据库管理软件之DataGrip

    DataGrip 是由JetBrains公司推出的数据库管理软件,DataGrip支持几乎所有主流的关系数据库产品,如DB2.Derby.H2.MySQL.Oracle.PostgreSQL.SQL ...

  3. JS 预编译代码实例分析

    了解 JavaScript 引擎在执行代码过程中所做的一些行为是非常必要的,这有助于我们在遇到莫名其妙的调用时,能够大致定位问题所在.在我学习了预编译的相关知识,并基于该文章,引用其中的一段代码,结合 ...

  4. Net使用EasyNetQ简化与RabbitMQ的交互

    Net使用EasyNetQ简化与RabbitMQ的交互 EasyNetQ是一个为.NET环境设计的RabbitMQ客户端API,旨在简化与RabbitMQ的交互. 关于RabbitMq的更多知识点在: ...

  5. Reverse花指令及反混淆

    花指令及反混淆 1.花指令   花指令是反调试的一种基本的方法.其存在是干扰选手静态分析,但不会影响程序的运行.实质就是一串垃圾指令,它与程序本身的功能无关,并不影响程序本身的逻辑.在软件保护中,花指 ...

  6. 2024-12-18:正方形中的最多点数。用go语言,给定一个二维数组 points 和一个字符串 s,其中 points[i] 表示第 i 个点的坐标,s[i] 表示第 i 个点的标签。 如果一个正

    2024-12-18:正方形中的最多点数.用go语言,给定一个二维数组 points 和一个字符串 s,其中 points[i] 表示第 i 个点的坐标,s[i] 表示第 i 个点的标签. 如果一个正 ...

  7. powershell禁止系统运行脚本

    错误信息: set-executionpolicy remotesigned set-executionpolicy : Windows PowerShell 已成功更新你的执行策略,但在更具体的作业 ...

  8. WSLg 中文输入法 fcitx5

    随着 Win11 22H2 和 WSLg 的推出,很多开启输入法的教程都过时了.记录一下最新实践: WSL 安装 Ubuntu 后,安装中文语言 sudo /usr/bin/gnome-languag ...

  9. Windows下,terminal美化、命令行美化

    1. Terminal terminal 比 原生的 cmd 要更加好用 直接去 Micorosoft Store 下载就行了 2. 美化效果图 3. 美化步骤 3.1 需要的插件 git-alias ...

  10. 聊一聊 C#线程池 的线程动态注入 (中)

    一:背景 1. 讲故事 上一篇我们用 Thread.Sleep 的方式演示了线程池饥饿场景下的动态线程注入,可以观察到大概 1s 产生 1~2 个新线程,很显然这样的增长速度扛不住上游请求对线程池的D ...