flink 自定义触发器定时或达到数量触发

flink 触发器

触发器确定窗口(由窗口分配程序形成)何时准备由窗口函数处理。每个WindowAssigner都带有一个默认触发器。

如果默认触发器不适合需求，我们就需要自定义触发器。

主要方法

触发器接口有五种方法，允许触发器对不同的事件作出反应

onElement()添加到每个窗口的元素都会调用此方法。
onEventTime()当注册的事件时间计时器触发时，将调用此方法。
onProcessingTime()当注册的处理时间计时器触发时，将调用此方法。
onMerge()与有状态触发器相关，并在两个触发器对应的窗口合并时合并它们的状态，例如在使用会话窗口时。(目前没使用过，了解不多)
clear()执行删除相应窗口时所需的任何操作。(一般是删除定义的状态、定时器等)

TriggerResult

onElement(),onEventTime(),onProcessingTime()都要求返回一个TriggerResult

TriggerResult包含以下内容

CONTINUE：表示啥都不做。
FIRE：表示触发计算，同时保留窗口中的数据
PURGE：简单地删除窗口的内容，并保留关于窗口和任何触发器状态的任何潜在元信息。
FIRE_AND_PURGE：触发计算，然后清除窗口中的元素。（默认情况下，预先实现的触发器只触发而不清除窗口状态。）

案例

需求

当窗口中的数据量达到一定数量的时候触发计算
根据执行时间每隔一定时间且窗口中有数据触发计算，如果没有数据不触发计算
窗口关闭的时候清除数据

实现过程

依赖

 <properties>

        <hadoop.version>3.1.1.3.1.0.0-78</hadoop.version>

        <flink.version>1.9.1</flink.version>

        <scala.binary.version>2.11</scala.binary.version>

        <scala.version>2.11.7</scala.version>

    </properties>

    <dependencies>

        <dependency>

            <groupId>org.scala-lang</groupId>

            <artifactId>scala-library</artifactId>

            <version>${scala.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.flink</groupId>

            <artifactId>flink-scala_${scala.binary.version}</artifactId>

            <version>${flink.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.flink</groupId>

            <artifactId>flink-streaming-scala_${scala.binary.version}</artifactId>

            <version>${flink.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.flink</groupId>

            <artifactId>flink-core</artifactId>

            <version>${flink.version}</version>

        </dependency>

    </dependencies>

实现代码

//调用

dStream

      .keyBy(_.event_id)

      .window(TumblingEventTimeWindows.of(Time.hours(1)))

      .trigger(new CustomTrigger(10, 1 * 60 * 1000L))

//-------------------------------------------------------------------------

package com.meda.demo

import java.text.SimpleDateFormat

import com.meda.utils.DatePattern

import org.apache.flink.api.common.functions.ReduceFunction

import org.apache.flink.api.common.state.ReducingStateDescriptor

import org.apache.flink.streaming.api.windowing.triggers.{Trigger, TriggerResult}

import org.apache.flink.streaming.api.windowing.windows.TimeWindow

class CustomTrigger extends Trigger[eventInputDT, TimeWindow] {

  //触发计算的最大数量

  private var maxCount: Long = _

  //定时触发间隔时长 (ms)

  private var interval: Long = 60 * 1000

  //记录当前数量的状态

  private lazy val countStateDescriptor: ReducingStateDescriptor[Long] = new ReducingStateDescriptor[Long]("counter", new Sum, classOf[Long])

  //记录执行时间定时触发时间的状态

  private lazy val processTimerStateDescriptor: ReducingStateDescriptor[Long] = new ReducingStateDescriptor[Long]("processTimer", new Update, classOf[Long])

  //记录时间时间定时器的状态

  private lazy val eventTimerStateDescriptor: ReducingStateDescriptor[Long] = new ReducingStateDescriptor[Long]("eventTimer", new Update, classOf[Long])

  def this(maxCount: Int) {

    this()

    this.maxCount = maxCount

  }

  def this(maxCount: Int, interval: Long) {

    this(maxCount)

    this.interval = interval

  }

  override def onElement(element: eventInputDT, timestamp: Long, window: TimeWindow, ctx: Trigger.TriggerContext): TriggerResult = {

    val countState = ctx.getPartitionedState(countStateDescriptor)

    //计数状态加1

    countState.add(1L)

    //如果没有设置事件时间定时器，需要设置一个窗口最大时间触发器，这个目的是为了在窗口清除的时候 利用时间时间触发计算，否则可能会缺少部分数据

    if (ctx.getPartitionedState(eventTimerStateDescriptor).get() == 0L) {

      ctx.getPartitionedState(eventTimerStateDescriptor).add(window.maxTimestamp())

      ctx.registerEventTimeTimer(window.maxTimestamp())

    }

    if (countState.get() >= this.maxCount) {

      //达到指定指定数量

      //删除事件时间定时触发的状态

      ctx.deleteProcessingTimeTimer(ctx.getPartitionedState(processTimerStateDescriptor).get())

      //清空计数状态

      countState.clear()

      //触发计算

      TriggerResult.FIRE

    } else if (ctx.getPartitionedState(processTimerStateDescriptor).get() == 0L) {

      //未达到指定数量，且没有指定定时器，需要指定定时器

      //当前定时器状态值加上间隔值

      ctx.getPartitionedState(processTimerStateDescriptor).add(ctx.getCurrentProcessingTime + interval)

      //注册定执行时间定时器

      ctx.registerProcessingTimeTimer(ctx.getPartitionedState(processTimerStateDescriptor).get())

      TriggerResult.CONTINUE

    } else {

      TriggerResult.CONTINUE

    }

  }

  // 执行时间定时器触发

  override def onProcessingTime(time: Long, window: TimeWindow, ctx: Trigger.TriggerContext): TriggerResult = {

    if (ctx.getPartitionedState(countStateDescriptor).get() > 0 && (ctx.getPartitionedState(processTimerStateDescriptor).get() == time)) {

      println(s"数据量未达到 $maxCount ,由执行时间触发器 ctx.getPartitionedState(processTimerStateDescriptor).get()) 触发计算")

      ctx.getPartitionedState(processTimerStateDescriptor).clear()

      ctx.getPartitionedState(countStateDescriptor).clear()

      TriggerResult.FIRE

    } else {

      TriggerResult.CONTINUE

    }

  }

  //事件时间定时器触发

  override def onEventTime(time: Long, window: TimeWindow, ctx: Trigger.TriggerContext): TriggerResult = {

    if ((time >= window.maxTimestamp()) && (ctx.getPartitionedState(countStateDescriptor).get() > 0L)) { //还有未触发计算的数据

      println(s"事件时间到达最大的窗口时间，并且窗口中还有未计算的数据:${ctx.getPartitionedState(countStateDescriptor).get()}，触发计算并清除窗口")

      ctx.getPartitionedState(eventTimerStateDescriptor).clear()

      TriggerResult.FIRE_AND_PURGE

    } else if ((time >= window.maxTimestamp()) && (ctx.getPartitionedState(countStateDescriptor).get() == 0L)) { //没有未触发计算的数据

      println("事件时间到达最大的窗口时间，但是窗口中没有有未计算的数据，清除窗口 但是不触发计算")

      TriggerResult.PURGE

    } else {

      TriggerResult.CONTINUE

    }

  }

  //窗口结束时清空状态

  override def clear(window: TimeWindow, ctx: Trigger.TriggerContext): Unit = {

    // println(s"清除窗口状态，定时器")

    ctx.deleteEventTimeTimer(ctx.getPartitionedState(eventTimerStateDescriptor).get())

    ctx.deleteProcessingTimeTimer(ctx.getPartitionedState(processTimerStateDescriptor).get())

    ctx.getPartitionedState(processTimerStateDescriptor).clear()

    ctx.getPartitionedState(eventTimerStateDescriptor).clear()

    ctx.getPartitionedState(countStateDescriptor).clear()

  }

  //更新状态为累加值

  class Sum extends ReduceFunction[Long] {

    override def reduce(value1: Long, value2: Long): Long = value1 + value2

  }

  //更新状态为取新的值

  class Update extends ReduceFunction[Long] {

    override def reduce(value1: Long, value2: Long): Long = value2

  }

}

留下的疑问：

之前看资料的时候好像说定时器只能设置一个，你设置多个它也只会选择一个执行。

但是我这里事件、执行时间定时器都设置，好像都生效了。这点还没看懂。

后续研究下啥情况。

本文为个人原创文章，转载请注明出处。！！！！

flink 自定义触发器定时或达到数量触发的更多相关文章

Flink 自定义触发器
import org.apache.flink.api.common.state.ReducingState; import org.apache.flink.api.common.state.Red ...
zabbix自定义触发器
zabbix中监控项仅负责收集数据,而通常收集数据的目的还包括在某指标对应的数据超出合理范围时给相关人员发送告警信息,"触发器"正式用于为监控项所收集的数据定义阈值,每一个触发器 ...
Android中仿淘宝首页顶部滚动自定义HorizontalScrollView定时水平自动切换图片
Android中仿淘宝首页顶部滚动自定义HorizontalScrollView定时水平自动切换图片自定义ADPager 自定义水平滚动的ScrollView效仿ViewPager 当遇到要在Vie ...
jquery的自定义事件通过on绑定trigger触发
jquery绑定自定义事件,可以实现预先绑定好一个处理方法,当需要使用的时候利用jquery trigger来触发自定义事件,以达到方便快捷的目的.我们来假设一个这样的场景,一个textarea中的字 ...
Flink自定义Sink
Flink自定义Sink Flink 自定义Sink,把socket数据流数据转换成对象写入到mysql存储. #创建Student类 public class Student { private i ...
4、flink自定义source、sink
一.Source 代码地址:https://gitee.com/nltxwz_xxd/abc_bigdata 1.1.flink内置数据源 1.基于文件 env.readTextFile(" ...
zabbix自定义触发器进行监控
给某一主机创建触发器触发器属性,其中centos是主机名,也就是你监控的那台主机的名字,可以点击bp2,查看该主机的hostname 检测该触发器在该主机下可以看到刚创建的触发器最后我们给该主机 ...
Flink 自定义source和sink，获取kafka的key，输出指定key
--------20190905更新------- 沙雕了,可以用 JSONKeyValueDeserializationSchema,接收ObjectNode的数据,如果有key,会放在Objec ...
Zabbix设置触发器调用远程主机脚本实现触发告警后自动启动自愈功能
参考:https://www.cnblogs.com/xiami-xm/p/8929163.html 当zabbix添加触发器后触发告警后可以设置发送邮件及短信告警,但是恢复故障需要运维人员收到告警以 ...

随机推荐

Linux下自动化部署ASP.NET CORE 3.1（Docker+Jenkins+Nginx）
1.先配置好Docker阿里云加速,可以使用阿里云容器服务 (可自己在阿里云申请,要不然安装东西直接很慢)注意:https://XXXX.mirror.aliyuncs.com为阿里云加速服务分配地址 ...
java之斗地主
hashmap集合+ArrayList集合+Collections集合工具类shuffle()和sort()hashmap中get(key).put(key/value)Arraylist中的add( ...
推荐中的多任务学习-ESMM
本文将介绍阿里发表在 SIGIR'18 的论文ESMM<Entire Space Multi-Task Model: An Eﬀective Approach for Estimating Po ...
小小知识点（二十九）open access 和 classic access期刊出版形式分别指的是什么？
open access: 作者付费,读者免费获取方式:相当于你给所有读者买单,就是交钱让你的文章可免费下载,很显然文章的被引用几率机会会提高.对于那些追求他引的单位,个别作者就得出点银子了 class ...
css常用单词
  <!-- type = square表示方块 ...
Redis入门--1.安装Redis
redis是什么? 是完全开源免费的,用c语言编写的,是一个单线程,高性能的(key/value)内存数据库,基于内存运行并支持持久化的nosql数据库 redis能干嘛? 主要是用来做缓存,但不仅仅 ...
自定义实现的ArrayList以及自定义实现的Iterator迭代器
ArrayList的底层是长度可动态变化的数组,其适用于查找多,修改少的情况,原因是数组的元素的增加删除元素会涉及大量元素的移动,效率比较低,ArrayList中的元素可以重复,与插入时的顺序相同,可 ...
i3s 一种开源的三维地理数据规范简单解读
i3s,esri主推到ogc的一种三维开源GIS数据标准. 版权声明:原创.博客园/B站/小专栏/知乎/CSDN @秋意正寒转载请标注原地址并声明转载: https://www.cnblogs.co ...
基于Saltstack、Artifactory打造传统模式下持续部署平台
一.持续部署 1. 现状由于没有建立标准的持续部署流程,导致了版本管理混乱,制品管理混乱,上线持续时间长,上线测试覆盖不全面,业务流量上升后故障较多,排查复杂.运维.测试.开发人员每次版本迭代的时候 ...
ODBC连接时报错不可识别的数据库格式
报这个错误是因为Acess的版本不同. 2003版本的Acess的数据连接字符串: string dataBasePath = @"C:/Users/user/Documents/Test. ...

flink 自定义触发器 定时或达到数量触发