Flink如何处理update数据

问题

Flink实时统计GMV,如果订单金额下午变了该怎么处理

具体描述

实时统计每天的GMV,但是订单金额是会修改的。
订单存储在mysql,通过binlog解析工具实时同步到kafka.然后从kafka实时统计当日订单总额。
假设订单009 上午10点生成，金额为1000. 生成一条json数据到kafka ,GMV实时统计为1000。
然后下午15点，009订单金额被修改为500。数据生成json也会进入kafka. 这时如果不减去上午已经统计的金额。那么总金额就是错的。

根据 update /delete 要写这个减去的逻辑。

按日去重是不行了，因为是增量处理, 上午的数据已经被处理了不能再获取了。

解决思路

首先版本是1.11+，可以直接用binlog

format，这样数据的修改其实会自动对应到update_before和update_after的数据，这样Flink

内部的算子都可以处理好这种数据，包括聚合算子。比如你是select sum(xxx) from T group by

yyy这种，那这个sum指标会自动做好这件事。
如果不用binlog模式，只是取最新的数据来做聚合计算，也可以用去重算子[1] 将append数据流转成retract数据流，这样下游再用同样的

聚合逻辑，效果也是一样的。

去重语法：

SELECT [column_list]

FROM (

   SELECT [column_list],

     ROW_NUMBER() OVER ([PARTITION BY col1[, col2...]]

       ORDER BY time_attr [asc|desc]) AS rownum

   FROM table_name)

WHERE rownum = 1

ROW_NUMBER(): 每一行分配一个唯一的，序列数字，从1开始
PARTITION BY col1[, col2...]: 指定分区列 i.e. 去重key.
ORDER BY time_attr [asc|desc]: 指定排序字段, 必须是一个时间属性. Currently Flink 支持 processing time 和 event time 属性. Ordering by ASC 意为保留第一行, ordering by DESC 意为保留最后一行.
WHERE rownum = 1: The rownum = 1 是必须的，对于Flink识别这个是去重的查询语句

只要source端产生了changelog数据，后面的算子是可以自动处理update消息的，简单理解，你可以认为:

append / update_after 消息会累加到聚合指标上
delete / update_before 消息会从聚合指标上进行retract

Reference

Flink如何处理update数据的更多相关文章

【源码解析】Flink 是如何处理迟到数据
相信会看到这篇文章的都对Flink的时间类型(事件时间.处理时间.摄入时间)和Watermark有些了解,当然不了解可以先看下官网的介绍:https://ci.apache.org/projects/ ...
flink 处理实时数据的三重保障
flink 处理实时数据的三重保障 window+watermark 来处理乱序数据对于 TumblingEventTimeWindows window 的元数据startTime,endTime 和 ...
J2EE综合：如何处理大数据量的查询
在实际的任何一个系统中,查询都是必不可少的一个功能,而查询设计的好坏又影响到系统的响应时间和性能这两个要害指标,尤其是当数据量变得越来越大时,于是如何处理大数据量的查询成了每个系统架构设计时都必须面对 ...
Flink消费Kafka数据并把实时计算的结果导入到Redis
1. 完成的场景在很多大数据场景下,要求数据形成数据流的形式进行计算和存储.上篇博客介绍了Flink消费Kafka数据实现Wordcount计算,这篇博客需要完成的是将实时计算的结果写到redis. ...
使用Flink实现索引数据到Elasticsearch
使用Flink实现索引数据到Elasticsearch 2018-07-28 23:16:36 Yanjun 使用Flink处理数据时,可以基于Flink提供的批式处理(Batch Proce ...
java通过jdbc访问mysql，update数据返回值的思考
java通过jdbc访问mysql,update数据返回值的思考先不说那么多,把Java代码贴出来吧. public static void main(String[] args) throws I ...
Sql server big data如何批量update数据
原因: 要一次性update 2千万条数据,虽然update sql很简单,但是由于一次性修改太多的数据,造成数据库log满了,就会报error: [ErrorCode: 9002, SQL Stat ...
CASE函数 sql server——分组查询(方法和思想) ref和out 一般处理程序结合反射技术统一执行客户端请求遍历查询结果集，update数据 HBuilder设置APP状态栏
CASE函数作用: 可以将查询结果集的某一列的字段值进行替换它可以生成一个新列相当于switch...case和 if..else 使用语法: case 表达式/字段 when 值 then ...
MySQL_(Java)使用JDBC向数据库中修改(update)数据
MySQL_(Java)使用JDBC向数据库发起查询请求传送门 MySQL_(Java)使用JDBC向数据库中插入(insert)数据传送门 MySQL_(Java)使用JDBC向数据库中删除(d ...
Hibernate 批量update数据时，怎么样做可以回滚，
Hibernate 批量update数据时,怎么样做可以回滚, 1.serviceManagerDaoImpl代码里对异常不进行try,catch抛出, 2.或者抛出throw new Runtime ...

随机推荐

操作 JAR 文件
列出 JAR 文件内容使用 jar 命令来列出 JAR 文件的内容: jar tf myapp.jar -t 选项表示列出文件,-f 表示指定 JAR 文件. 解压 JAR 文件使用 jar 命令 ...
Serilog文档翻译系列（一） - 入门指南
保持优质文档是 Serilog 的优先事项.如果你发现文档中有缺失或不准确的内容,或者希望通过添加主题或教程来扩展 wiki,请通过问题追踪系统告知我们. 为什么选择Serilog? 与许多其他 .N ...
LeetCode 验证二叉搜索树的两种不同题型
一.leetcode 98. 验证二叉搜索树通过辅助函数增加参数进行判断. 虽然节点值在INT范围内,但要求其中序遍历序列严格单调递增,因此等于也不行,而且需要用LONG_MIN\LONG_MAX初 ...
Vue.js 异步组件传参
本文主要展示一下如何给异步组件进行参数传递: 通过 h 函数就可以啦 versions: vue@3.2.13 子组件 Async.vue <template> <div> & ...
tracking调研
常用框架有以下三种: Separate Detection and Embedding (SDE- 物体检测,特征提取与物体关联),JOINT Detection and Embeddin ...
Angular 18+ 高级教程 – Reactive Forms
前言上一篇的 Ajax 和这一篇的表单 (Form) 都是前端最最最常见的需求. 为此,Angular 分别提供了两个小型库来帮助开发者实现这些需求: Ajax – HttpClient Form ...
Time Zone, Leap Year, Date Format, Epoch Time 时区, 闰年, 日期格式
前言以前有写过一篇了, 但很乱, 这篇就作为它的整理版吧. Leap Year 闰年闰年是指那些有 366 天, 二月份有 29号的年份. 比如 2020年有 2月29日, 所以 2020 就 ...
SQL Server 中的 NUL 设备/NIL设备
SQL Server 中的 NUL 设备/NIL设备在 SQL Server 中,有一个特殊的设备叫做 NUL(注意,不是 NULL),它类似于文件系统中的"黑洞".NUL 设备 ...
windows在cygwin64下使用acme.sh批量签发Let's Encrypt的ssl证书，并用powershell重新分配iis证书
使用前提本脚本是在使用阿里云Windows服务器的前提,如果使用其他dns服务,请参看acme.sh的dns相关文档配置好cygwin64.acme.sh并配置好阿里云账户,openssl最好也安 ...
cobalt strike安装教程
将本地IP和密码填入:./teamserver 192.168.xx.xx 密码启动成功

Flink如何处理update数据

问题

具体描述

解决思路

Reference

Flink如何处理update数据的更多相关文章

随机推荐

热门专题