Flnk作为流式计算平台,他能对源源不断发送过来的数据进行处理。

对于数据流的处理方式,可以是来一条处理一条(pipeline的方式),还可以获取一些数据然后统一处理。

对于数据流如何描述一堆数据呢?就是通过Window的概念。

Window

Window翻译为窗口,相当于将流式数据进行逻辑切割,那么可以将Window内的数据看成一个整体。我们就可以对Window内的数据进行聚合、排序等操作。

对于流式数据来说,划分Window的方式必然和Time有关。在Flink中Window分为两种TimeWindow和GlobalWindow。TimeWindow包含起始时间,GlobalWindow是没有结束时间的TimeWindow。其实你也可以理解为只有一种Window。

划分Window不是目的,目的是能对Window中的数据进行处理。

那么,我们需要知道Window中的数据什么时候采集结束?所以在Window的操作中需要设置trigger,当Window中的数据满足某个条件时触发trigger,表示Window中的数据已经采集完了,开始下面的计算吧。

方式可以有:

  • CountTrigger window中事件数量达到某个值时触发计算
  • EventTimeTrigger window中包含某个时间点的事件时触发计算

    ...

对于,数据到底应该进入哪个Window(有可能一条数据可以进入多个Window)?Flink中通过设置WindowAssigner来实现。其实就是如何划分时间轴。

  • GlobalWindows 表示 整个流为一个整体的Window
  • TumblingEventTimeWindows 表示 两两Window紧密相连
  • SlidingEventTimeWindows 表示 有交集的Window

    ...

Flink中还为Window添加了一种操作,当触发计算后,你可以删除Window中的某些事件。这个需求可以通过设定Evictor来实现。

这就是Flink中对于Window的操作。

Watermark

那Watermark的作用呢?

在流式数据中日志不断的进入Flink系统,在Flink中定义了三种时间:EventTime、IngestTime、ProcessTime。

  • EventTime 表示日志中自带的时间
  • IngestTime 表示日志进入Flink系统的时间
  • ProcessTime 表示Flink处理日志的时间

在上面Window中说道,Window是基于时间对日志进行逻辑切割,那么时间以什么为基准呢?在Flink系统中可以通过设置上述的时间来确定基准时间,默认是ProcessTime。

虽然有三种时间但是EventTime和IngestTime/ProcessTime有一个很大的区别,对于Flink系统来说IngestTime/ProcessTime一定是有序的,而EventTime而不一定(大概率是乱序的)。

那么当我们以EventTime为基准来分割Window时,则可能就会出现原本是Window A中的数据,而在Window D时才进入Flink系统(认为在时间上Window A比Window D早)。

如果我们希望晚到的数据也能进入在本来应该进入的Window A中去呢?这时候Flink设计了Watermark来解决这个问题。

Watermark实现的功能是用户通过设置Watermark的生成规则来手工的指定何时触发Window计算。

常用的方式是让Watermark延时一段时间生成。这也可以将Window之外的一部分日志也计入该Window。但是,这个预估的延时不能完美的解决乱序的问题。

所以Watermark是在当基准时间设置为EventTime时解决日志乱序的工具。

引用

理解Flink之二Window与Watermark的更多相关文章

  1. Flink中的window、watermark和ProcessFunction

    一.Flink中的window 1,window简述  window 是一种切割无限数据为有限块进行处理的手段.Window 是无限数据流处理的核心,Window 将一个无限的 stream 拆分成有 ...

  2. flink中对于window和watermark的一些理解

    package com.chenxiang.flink.demo; import java.io.IOException; import java.net.ServerSocket; import j ...

  3. 深入理解Flink核心技术及原理

    前言 Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注.本文将深入分析Flink的一些关键技术与特性,希望 ...

  4. 彻底搞清Flink中的Window

    窗口 在流处理应用中,数据是连续不断的,因此我们不可能等到所有数据都到了才开始处理.当然我们可以每来一个消息就处理一次,但是有时我们需要做一些聚合类的处理,例如:在过去的1分钟内有多少用户点击了我们的 ...

  5. Flink使用二次聚合实现TopN计算-乱序数据

    一.背景说明: 在上篇文章实现了TopN计算,但是碰到迟到数据则会无法在当前窗口计算,需要对其中的键控状态优化 Flink使用二次聚合实现TopN计算 本次需求是对数据进行统计,要求每隔5秒,输出最近 ...

  6. 理解ThreadLocal(之二)

    想必很多朋友对ThreadLocal并不陌生,今天我们就来一起探讨下ThreadLocal的使用方法和实现原理.首先,本文先谈一下对ThreadLocal的理解,然后根据ThreadLocal类的源码 ...

  7. 深入理解C/C++二维数组

    深入理解C/C++二维数组 前言 本来以为自己对二维数组的理解还可以,没感觉有什么,但是今天小伙伴问了一个问题感觉迷惑了好久,于是决定细致的记录一下,一步一步的探究各种关于二维数组的问题,巩固基础. ...

  8. 如何理解CPU上下文切换(二)

    如何理解CPU上下文切换(二) 1.引 你们好,可爱的小伙伴们.^_^ 多个进程竞争CPU就是一个经常被我们忽视的问题. 你们一定很好奇,进程在竞争CPU的时候并没有真正运行,为什么还会导致系统的负载 ...

  9. 深入理解zabbix(二)

    深入理解zabbix(二) 链接:https://pan.baidu.com/s/1q5YwJMTcZLcS5OQ0iOu44A 提取码:8gdi 复制这段内容后打开百度网盘手机App,操作更方便哦 ...

  10. 深入理解NIO(二)—— Tomcat中对NIO的应用

    深入理解NIO(二)—— Tomcat中对NIO的应用 老哥行行好,转载和我说一声好吗,我不介意转载的,但是请把原文链接贴大点好吗 Tomcat大致架构 先贴两张图大致看一眼Tomcat的架构 Tom ...

随机推荐

  1. 痞子衡嵌入式:在MDK开发环境下自定义安装与切换不同编译器版本的方法

    大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家分享的是在MDK开发环境下自定义安装与切换不同编译器版本的方法. Keil MDK 想必是嵌入式开发者最熟悉的工具之一了,自 2005 年 Ar ...

  2. JavaScript – 类型转换

    介绍 JS 是弱类型语言, 在编程时, 有许多自动类型转换的技巧, 虽然大家都不太鼓励, 尤其是用了 TypeScript 之后, 但无可否认自动转换很方便, 看上去也很干净. 所以这篇还是要介绍一些 ...

  3. Spring —— 整合JUnit

    整合JUnit   

  4. Spring —— 集合注入

    数组注入    List集合注入    set集合注入    Map集合注入    Properties集合注入   

  5. 均值回归策略在A股ETF市场获利的可能性

    如何在股票市场获利 曾经有人告诉我一个在股票市场赚钱的秘诀,只要掌握这个秘诀,赚钱就像捡钱一样容易.他说:这个秘诀其实很简单,就是在股票价格低的时候买入,在价格高的时候卖出. 啧啧,不愧是秘诀,明明是 ...

  6. 使用iis设置网站php版本为7.3

    内容:使用iis设置网站php版本为7.3这张图 是多少人的噩梦  早期的宝塔版本 没办法在线升级, php版本只能到7.1   默认就没有7.2以上版本   怎么办?可以在iis设置第一步: 第二步 ...

  7. apisix~为自定义插件设计一个configmap脚本

    configMap Kubernetes 中的 ConfigMap 是一种用来存储配置数据的 API 资源,它允许您将配置信息以键值对的形式保存,并在容器中使用这些配置信息.ConfigMap 提供了 ...

  8. 云原生周刊:Kubernetes v1.27 发布 | 2023.4.17

    开源项目推荐 Palaemon Palaemon 是一个开源开发工具,用于监控 Kubernetes 集群的健康状况和资源指标并分析内存不足 (OOMKill) 错误. Gitkube Gitkube ...

  9. 云原生爱好者周刊:OCI 镜像管理新工具 — regclient

    云原生一周动态要闻: OpenKruise v1.0 发布 SlashData 最新报告:560 万开发者使用 Kubernetes,一年增长 67% WasmEdge 0.9.0 发布 Securi ...

  10. 基于 KubeSphere 的开源微服务开发平台 Pig 最佳实践

    作者:何昌涛,北京北大英华科技有限公司高级 Java 工程师,云原生爱好者. 前言 近年来,为了满足越来越复杂的业务需求,我们从传统单体架构系统升级为微服务架构,就是把一个大型应用程序分割成可以独立部 ...