Flink去重语句

您可以通过多种方式实现去重需求，例如FIRST_VALUE、LAST_VALUE和DISTINCT等。本文为您介绍如何使用TopN方法实现去重，以及使用过程中的注意事项。

去重的方案通常有两种：

(1) 保留第一条。

(2) 保留最后一条。

说明 ORDER BY后的时间属性字段必须在源表中定义。

语法

由于SQL没有直接去重的语法，因此我们使用SQL的ROW_NUMBER OVER WINDOW功能实现去重。ROW_NUMBER OVER WINDOW与TopN语句方法类似，可以理解为一种特殊的TopN。

SELECT * FROM (

   SELECT 
     *,

     ROW_NUMBER() OVER ([PARTITION BY col1[, col2..]

     ORDER BY timeAttributeCol [asc|desc]) AS rownum

   FROM table_name)
WHERE rownum = 1;

参数说明：

ROW_NUMBER()：计算行号，行号计算从1开始。

PARTITION BY col1[, col2..]：指定分区的列，即去重的Key，也可以不指定分区的列。

ORDER BY timeAttributeCol [asc|desc])：指定排序的列，必须是时间属性字段（Processing Time或Event Time）。可以指定为顺序（Keep First Row）或倒序（Keep Last Row）。

外层查询rownum必须为= 1或者<= 1。条件必须是AND，且不能存在Undeterministic的UDF的条件。

如上语法所示，去重需要两层Query：

子查询中：使用ROW_NUMBER()，按照时间属性列对数据进行排序编号。

外层查询中：对排名进行过滤，只取第一条，达到去重的目的。时间列排序方向可以为：

顺序：deduplicate keep first row。

倒序：deduplicate keep last row。

当排序字段是Processing Time列时，Flink会按系统时间去重，其每次运行结果不确定。当排序字段是Event Time列时，Flink会按业务时间去重，其每次运行结果是确定的。

Deduplicate Keep First Row

保留首行的去重策略，即保留指定Key下第一条出现的数据，之后出现在该Key下的数据会被丢弃掉。因为其State中只存储了Key数据，因此性能较优。示例如下。

SELECT * FROM (

  SELECT 
　　*,

    ROW_NUMBER() OVER (PARTITION BY b ORDER BY proctime) as rowNum

  FROM T

)
WHERE rowNum = 1;

本例中，将T表按照b字段进行去重，并按照系统时间保留第一条数据。proctime在以上示例中是源表T中的一个具有Processing Time属性的字段。如果您按照系统时间去重，也可以将proctime字段简化成PROCTIME()函数进行调用，可以省略proctime字段的声明。

说明 Blink-3.3.1版本后，FirstRow支持使用Event Time进行开窗，并且不会产生Retraction。

Deduplicate Keep Last Row

注意 LastRow不支持使用Event Time进行开窗。

LastRow的作用也是去重，且只保留该主键下最后一条出现的数据。其性能略胜于LAST_VALUE函数，示例如下。

SELECT *  FROM (

  SELECT 
　　*,

    ROW_NUMBER() OVER (PARTITION BY b, d ORDER BY proctime DESC) as rowNum

  FROM T

) 
WHERE rowNum = 1;

Flink-SQL数据去重的更多相关文章

大数据中必须要掌握的 Flink SQL 详细剖析
Flink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言. 自 2015 年开始,阿里巴巴开始调研开源流计算引擎,最终决定基于 ...
OPPO数据中台之基石：基于Flink SQL构建实数据仓库
小结: 1. OPPO数据中台之基石:基于Flink SQL构建实数据仓库 https://mp.weixin.qq.com/s/JsoMgIW6bKEFDGvq_KI6hg 作者 | 张俊编辑 | ...
Apache Flink SQL
本篇核心目标是让大家概要了解一个完整的 Apache Flink SQL Job 的组成部分,以及 Apache Flink SQL 所提供的核心算子的语义,最后会应用 TumbleWindow 编写 ...
[源码分析] 带你梳理 Flink SQL / Table API内部执行流程
[源码分析] 带你梳理 Flink SQL / Table API内部执行流程目录 [源码分析] 带你梳理 Flink SQL / Table API内部执行流程 0x00 摘要 0x01 Apac ...
第05讲：Flink SQL & Table 编程和案例
Flink系列文章第01讲:Flink 的应用场景和架构模型第02讲:Flink 入门程序 WordCount 和 SQL 实现第03讲:Flink 的编程模型与其他框架比较第04讲:Flin ...
Oracle 分页查询与数据去重
1.rownum字段 Oracle下select语句每个结果集中都有一个伪字段(伪列)rownum存在.rownum用来标识每条记录的行号,行号从1开始,每次递增1.rownum是虚拟的顺序值,前提是 ...
mssql sqlserver 三种数据表数据去重方法分享
摘要: 下文将分享三种不同的数据去重方法数据去重:需根据某一字段来界定,当此字段出现大于一行记录时,我们就界定为此行数据存在重复. 数据去重方法1: 当表中最在最大流水号时候,我们可以通过关联的方式为 ...
KSQL和Flink SQL的比较
Confluent公司于2017年11月宣布KSQL进化到1.0版本,标志着KSQL已经可以被正式用于生产环境.自那时起,整个Kafka发展的重心都偏向于KSQL——这一点可以从Confluent官方 ...
《从0到1学习Flink》—— Flink 写入数据到 ElasticSearch
前言前面 FLink 的文章中我们已经介绍了说 Flink 已经有很多自带的 Connector. 1.<从0到1学习Flink>-- Data Source 介绍 2.<从0到1 ...
Oracle数据去重
一.完全重复数据去重方法具体思路是,首先创建一个临时表,然后将DISTINCT之后的表数据插入到这个临时表中;然后清空原表数据;再讲临时表中的数据插入到原表中;最后删除临时表. 对于表中完全重 ...

随机推荐

P1216-DP【橙】
在这道题中,我第一次用了memset,确实方便,不过需要注意的是只有全部赋值-1和0的时候才能使用它,否则他能干出吓死人的事.以及memset在cstring头文件里,在本地就算不include也能照 ...
shell脚本(9)-流程控制for
一.循环介绍 for循环叫做条件循环,或者for i in,可以通过for实现流程控制二.for语法 1.for语法一:for in for var in value1 value2 ...... ...
每天学五分钟 Liunx 0000 | 存储篇：GlusterFS
GlusterFS GlusterFS,是一个分布式文件系统,它通过 TCP/IP 或 IB(InfiniBand RDMA)网络将多个存储资源整合在一起,提供存储服务,具有很强的可扩展能力. G ...
AHB2APB设计
AHB2APB Bridge位置 AHB子系统时钟在200Mhz左右,APB时钟在几十Khz到几十Mhz 所以要进行跨时钟域处理,从AHB高时钟频率转到APB低时钟频率 AHB2APB Bridge规 ...
Oracle数据类型的简单学习之一
Oracle数据类型的简单学习之一背景因为信创安可替代的发展有很多项目提到了数据库切换到国产数据库的要求. 一般情况是要求从Oracle/SQLServer 迁移到国产的: 达梦/瀚高/人大金仓 ...
[转帖]TiKV 内存调优
TiDB试用来源:TiDB 浏览 87 扫码分享 2023-05-09 09:02:19 TiKV 内存参数性能调优参数说明 TiKV 内存使用情况 TiKV 机器配置推荐 TiKV 内存参数 ...
多个物理磁盘挂载到同一目录的方法 (lvm 软raid)
多个物理磁盘挂载到同一目录的方法 (lvm 软raid) 背景公司里面的一台申威3231的机器因为这个机器的raid卡没有操作界面. 所以只能够通过命令行方式创建raid 自己这一块比较菜, 想着 ...
[转帖]Sar的一次使用案例
https://www.jianshu.com/p/b93342d43e13 问题现象有一台机器,在某个时间点OS类似无响应,造成使用者感觉在该时间点机器应该发生重启,就此问题进行分析. 日志查看 ...
Linux 处理CPU和内存参数的方式总结
Linux 处理CPU和内存参数的方式总结关闭NUMA,关闭透明大页比较简单的方法: vim /etc/default/grub 在 GRUB_CMDLINE_LINUX 里面添加配置: tran ...
[转帖]linux 调优各项监控指标小记
https://z.itpub.net/article/detail/8A4E4E96522BD59D45AB5A4CA442EDB3 自开始负责生产环境部署,中间遇到了若干线上环境内存以及CPU的问 ...

Flink-SQL数据去重

Flink去重语句

语法

Deduplicate Keep First Row

Deduplicate Keep Last Row

Flink-SQL数据去重的更多相关文章

随机推荐

热门专题