flink双流join

package com.streamingjoin

import org.apache.flink.api.common.state.{ValueState, ValueStateDescriptor}

import org.apache.flink.streaming.api.TimeCharacteristic

import org.apache.flink.streaming.api.functions.co.KeyedCoProcessFunction

import org.apache.flink.streaming.api.scala._

import org.apache.flink.util.Collector

/**

  * 将五分钟之内的订单信息和支付信息进行对账，对不上的发出警告

  */

object TwoStreamJoinDemo {

  // 用来输出没有匹配到的订单支付事件

  val unmatchedOrders = new OutputTag[String]("unmatched-orders")

  // 用来输出没有匹配到的第三方支付事件

  val unmatchedPays = new OutputTag[String]("unmatched-pays")

  def main(args: Array[String]): Unit = {

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    env.setParallelism(1)

    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

    val orders: KeyedStream[OrderEvent, String] = env.fromElements(

      OrderEvent("order_1", "pay", 2000L),

      OrderEvent("order_2", "pay", 5000L),

      OrderEvent("order_3", "pay", 6000L))

      .assignAscendingTimestamps(_.eventTime)

      .keyBy(_.orderId)

    val pays: KeyedStream[PayEvent, String] = env

      .fromElements(

        PayEvent("order_1", "weixin", 7000L),

        PayEvent("order_2", "weixin", 8000L),

        PayEvent("order_4", "weixin", 9000L)

      )

      .assignAscendingTimestamps(_.eventTime)

      .keyBy(_.orderId)

    val processed: DataStream[String] = orders.connect(pays).process(new MatchFunction)

    processed.print()

    processed.getSideOutput(unmatchedOrders).print()

    processed.getSideOutput(unmatchedPays).print()

    env.execute()

  }

  //订单支付事件

  case class OrderEvent(orderId: String,

                        eventType: String,

                        eventTime: Long)

  //第三方支付事件，例如微信，支付宝

  case class PayEvent(orderId: String,

                      eventType: String,

                      eventTime: Long)

  //进入同一条流中的数据肯定是同一个key，即OrderId

  //肯定会用到状态了

  class MatchFunction extends KeyedCoProcessFunction[String, OrderEvent, PayEvent, String] {

    //状态的定义

    lazy private val orderState: ValueState[OrderEvent] = getRuntimeContext.getState(new ValueStateDescriptor[OrderEvent]("orderState", classOf[OrderEvent]))

    lazy private val payState: ValueState[PayEvent] = getRuntimeContext.getState(new ValueStateDescriptor[PayEvent]("payState", classOf[PayEvent]))

    override def processElement1(value: OrderEvent, ctx: KeyedCoProcessFunction[String, OrderEvent, PayEvent, String]#Context, out: Collector[String]): Unit = {

      //从payState中查找数据，如果存在，说明匹配成功

      val pay = payState.value()

      if (pay != null) {

        payState.clear()

        out.collect("订单ID为 " + pay.orderId + " 的两条流对账成功")

      } else {

        //如果不存在，则说明可能对应的pay数据没有来，需要存入状态等待

        //定义一个5min的定时器，到时候再匹配，如果还没匹配上，则说明匹配失败发出警告

        orderState.update(value)

        ctx.timerService().registerEventTimeTimer(value.eventTime + 5000)

      }

    }

    override def processElement2(value: PayEvent, ctx: KeyedCoProcessFunction[String, OrderEvent, PayEvent, String]#Context, out: Collector[String]): Unit = {

      val order = orderState.value()

      if (order != null) {

        orderState.clear()

        out.collect("订单ID为 " + order.orderId + " 的两条流对账成功！")

      } else {

        payState.update(value)

        ctx.timerService().registerEventTimeTimer(value.eventTime + 5000)

      }

    }

    override def onTimer(timestamp: Long, ctx: KeyedCoProcessFunction[String, OrderEvent, PayEvent, String]#OnTimerContext, out: Collector[String]): Unit = {

      if (orderState.value() != null) {

        //将警告信息发送到侧输出流中

        ctx.output(unmatchedOrders, s"订单ID为 ${orderState.value().orderId} 的两条流没有对账成功！")

        orderState.clear()

      }

      if (payState.value() != null) {

        ctx.output(unmatchedPays, s"订单ID为 ${payState.value().orderId} 的两条流没有对账成功！ ")

        payState.clear()

      }

    }

  }

}

flink双流join的更多相关文章

面试官: Flink双流JOIN了解吗? 简单说说其实现原理
摘要:今天和大家聊聊Flink双流Join问题.这是一个高频面试点,也是工作中常遇到的一种真实场景. 本文分享自华为云社区<万字直通面试:Flink双流JOIN>,作者:大数据兵工厂 . ...
flink-----实时项目---day06-------1. 获取窗口迟到的数据 2.双流join（inner join和left join（有点小问题）） 3 订单Join案例（订单数据接入到kafka，订单数据的join实现，订单数据和迟到数据join的实现）
1. 获取窗口迟到的数据主要流程就是给迟到的数据打上标签,然后使用相应窗口流的实例调用sideOutputLateData(lateDataTag),从而获得窗口迟到的数据,进而进行相关的计算,具体 ...
flink dataset join笔记
1.dataset的join连接,通过key进行关联,一般情况下的join都是inner join,类似sql里的inner join key包括以下几种情况: a key expression a ...
Apache Flink 漫谈系列 - JOIN 算子
聊什么在<Apache Flink 漫谈系列 - SQL概览>中我们介绍了JOIN算子的语义和基本的使用方式,介绍过程中大家发现Apache Flink在语法语义上是遵循ANSI-SQL ...
Apache-Flink深度解析-JOIN 算子
什么是JOIN 在<Apache Flink 漫谈系列 - SQL概览>中我对JOIN算子有过简单的介绍,这里我们以具体实例的方式让大家对JOIN算子加深印象.JOIN的本质是分别从N(N ...
Flink sql 之 join 与 StreamPhysicalJoinRule （源码解析）
源码分析基于flink1.14 Join是flink中最常用的操作之一,但是如果滥用的话会有很多的性能问题,了解一下Flink源码的实现原理是非常有必要的本文的join主要是指flink sql的R ...
Flink官网文档翻译
http://ifeve.com/flink-quick-start/ http://vinoyang.com/2016/05/02/flink-concepts/ http://wuchong.me ...
Flink 灵魂两百问，这谁顶得住？
Flink 学习 https://github.com/zhisheng17/flink-learning 麻烦路过的各位亲给这个项目点个 star,太不易了,写了这么多,算是对我坚持下来的一种鼓励吧 ...
Flink/CEP/规则引擎/风控
基于 Apache Flink 和规则引擎的实时风控解决方案对一个互联网产品来说,典型的风控场景包括:注册风控.登陆风控.交易风控.活动风控等,而风控的最佳效果是防患于未然,所以事前事中和事后三 ...

随机推荐

算法leetcode_分治算法
一.基本概念在计算机科学中,分治法是一种很重要的算法.字面上的解释是"分而治之",就是把一个复杂的问题分成两个或更多的相同或相似的子问题,再把子问题分成更小的子问题--直到最后子 ...
微信小程序云开发-数据库-获取用户添加的数据到数据库
一.列表页面新增[添加商品]按钮在列表页增加[添加商品]按钮,按钮绑定事件toAdd(),用户点击该按钮跳转到添加商品页面. 在js文件中写toAdd()函数,作用是点击[添加商品]按钮,跳转到[添 ...
Maven作用及应用
1.简介 Maven是一个项目管理的Java 工具,在JavaEE中,我们可以使用Maven方便地管理团队合作的项目,现在我们在学习JavaEE框架,使用Maven可以管理类库,有效方便地供团队中的其 ...
Linux虚拟机与主机网络连接配置与文件传输
网络配置对于VMware虚拟机 1. 设置linux系统的网络配置,如下(NAT为默认配置,这里采用这一配置) 2. 主机中配置本地连接-属性-共享-勾选红框配置项,如下: 3.重启虚拟机. ...
SpringBoot自动装配-Condition
1. 简介 @Conditional注解在Spring4.0中引入,其主要作用就是判断条件是否满足,从而决定是否初始化并向容器注册Bean. 2. 定义 2.1 @Conditional @Condi ...
Django debug page XSS漏洞（CVE-2017-12794）
影响版本:1.11.5之前的版本访问http://your-ip:8000/create_user/?username=<script>alert(1)</script>创建 ...
在vue中使用微信jssdk的getLocalImgData怎么让多张图片显示
在循环里添加了一个异步请求类型的,所以我让他每次执行完毕后再执行下一次操作,其中用到了async 和 await,将异步变为同步去执行. 1 // 图片上传 2 handleImage(typeVal ...
Windows协议 LDAP篇 - Actite Directory
LDAP简介先说下ldap,轻量目录访问协议.LDAP就是设计用来访问目录数据库的一个协议.也就是为了能访问目录数据库,ldap是其中一种协议 LDAP的基本模型目录树:在一个目录服务系统中,整个 ...
微信小程序测试点
一.测试范围 1.权限测试需要检查以下几种情况下微信用户访问的权限 1)未授权微信登录小程序未授权时,一般使用一些业务功能的时候,都会弹出提醒:先授权再操作对应功能.or在提交数据到后台的时候,会 ...
建立局域网内使用的CentOS7-OpenStack源
by 无若 1. 先建立局域网内使用的CentOS7源这个参看 http://www.cnblogs.com/gleaners/p/5735472.html 2. 抓取所有OpenStack的包,文 ...

flink双流join

flink双流join的更多相关文章

随机推荐

热门专题