Windowing TVF

在Flink1.13版本之后出现的替代之前的Group window的产物,官网描述其 is more powerful and effective

 //TVF 中的tumble滚动窗口
 //tumble(table sensor,descriptor(et),interval '5' second ):作为一张表存在
 //特别注意!!!!
 //如果在sql中使用了tumble窗口,则一定需要group by,而且group by后一定有window_start,window_end两个字段

sql实现TVF的tumble窗口实现

 package net.cyan.FlinkSql.TVF;
 ​
 import net.cyan.POJO.WaterSensor;
 import org.apache.flink.api.common.eventtime.WatermarkStrategy;
 import org.apache.flink.streaming.api.datastream.DataStream;
 import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
 import org.apache.flink.table.api.Table;
 import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
 ​
 import java.time.Duration;
 ​
 import static org.apache.flink.table.api.Expressions.$;
 ​
 public class Demo1_Window_TableAPI_Tumble {
     public static void main(String[] args) {
         //创建执行环境
         StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
         //创建表的运行环境
         StreamTableEnvironment tabEnv = StreamTableEnvironment.create(env);
         env.setParallelism(1);
         DataStream<WaterSensor> waterSensorStream =
                 env.fromElements(
                         new WaterSensor("sensor_1", 1000L, 10),
                         new WaterSensor("sensor_1", 2000L, 20),
                         new WaterSensor("sensor_2", 3000L, 30),
                         new WaterSensor("sensor_1", 4000L, 40),
                         new WaterSensor("sensor_1", 5000L, 50),
                         new WaterSensor("sensor_2", 6000L, 60))
                        .assignTimestampsAndWatermarks(
                                 WatermarkStrategy
                                        .<WaterSensor>forBoundedOutOfOrderness(Duration.ofSeconds(3))
                                        .withTimestampAssigner((ws, ts) -> ws.getTs())
 ​
                        );
         //创建table
         Table table = tabEnv.fromDataStream(waterSensorStream,$("id"),$("ts"),$("vc"),$("et").rowtime());
         //创建表
         tabEnv.createTemporaryView("sensor",table);
         //执行sql
         //TVF 中的tumble滚动窗口
         //tumble(table sensor,descriptor(et),interval '5' second ):作为一张表存在
         //特别注意!!!!
         //如果在sql中使用了tumble窗口,则一定需要group by,而且group by后一定有window_start,window_end两个字段
         tabEnv.sqlQuery("select" +
                 " window_start,window_end,id," +
                 "sum(vc) sum_vc" +
                 " from table (tumble(table sensor,descriptor(et),interval '5' second ))" +
                 " group by window_start,window_end,id ")
                .execute()
                .print();
 ​
    }
 }

sql实现TVF的滑动窗口

 //TVF 中的hop滚动窗口
 //hop(table sensor,descriptor(et),interval '2' second,interval '5' second ):作为一张表存在
 //first interval :滑动步长, second interval :窗口长度
 //特别注意!!!!
 // 1.TVF 中滑动窗口的滑动步长与窗口长度必须是整数倍的关系,不然会报错
 // 例如:滑动步长为2,窗口长度就不能为5,可以为6
 // 2.如果在sql中使用了hop窗口,则一定需要group by,而且group by后一定有window_start,window_end两个字段
 package net.cyan.FlinkSql.TVF;
 ​
 import net.cyan.POJO.WaterSensor;
 import org.apache.flink.api.common.eventtime.WatermarkStrategy;
 import org.apache.flink.streaming.api.datastream.DataStream;
 import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
 import org.apache.flink.table.api.Table;
 import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
 ​
 import java.time.Duration;
 ​
 import static org.apache.flink.table.api.Expressions.$;
 ​
 public class Demo2_Window_TVF_Hop {
     public static void main(String[] args) {
         //创建执行环境
         StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
         //创建表的运行环境
         StreamTableEnvironment tabEnv = StreamTableEnvironment.create(env);
         env.setParallelism(1);
         DataStream<WaterSensor> waterSensorStream =
                 env.fromElements(
                         new WaterSensor("sensor_1", 1000L, 10),
                         new WaterSensor("sensor_1", 2000L, 20),
                         new WaterSensor("sensor_2", 3000L, 30),
                         new WaterSensor("sensor_1", 4000L, 40),
                         new WaterSensor("sensor_1", 5000L, 50),
                         new WaterSensor("sensor_2", 6000L, 60))
                        .assignTimestampsAndWatermarks(
                                 WatermarkStrategy
                                        .<WaterSensor>forBoundedOutOfOrderness(Duration.ofSeconds(3))
                                        .withTimestampAssigner((ws, ts) -> ws.getTs())
 ​
                        );
         //创建table
         Table table = tabEnv.fromDataStream(waterSensorStream,$("id"),$("ts"),$("vc"),$("et").rowtime());
         //创建表
         tabEnv.createTemporaryView("sensor",table);
         //执行sql
         //TVF 中的hop滚动窗口
         //hop(table sensor,descriptor(et),interval '2' second,interval '5' second ):作为一张表存在
         //first interval :滑动步长, second interval :窗口长度
         //特别注意!!!!
         // 1.TVF 中滑动窗口的滑动步长与窗口长度必须是整数倍的关系,不然会报错
         // 例如:滑动步长为2,窗口长度就不能为5,可以为6
         // 2.如果在sql中使用了hop窗口,则一定需要group by,而且group by后一定有window_start,window_end两个字段
         tabEnv.sqlQuery("select" +
                 " window_start,window_end,id," +
                 "sum(vc) sum_vc" +
                 " from table (hop(table sensor,descriptor(et),interval '2' second,interval '6' second ))" +
                 " group by window_start,window_end,id ")
                .execute()
                .print();
 ​
 ​
 ​
    }
 }

sql实现TVF的累计窗口

累计窗口的应用:

需求:每天每隔一个小时统计一次当天的pv(浏览量)

流的方式如何解决:

1、用滚动窗口, 窗口长度设为1h

2、每天的第一个窗口清除状态,后面的不清,进行状态的累加

或者

用滚动窗口,长度设置为2day

自定义触发器,每隔1小时对窗内的元素计算一次,不关闭窗口

sql的方式如何解决?

直接使用累计窗口cumulate

 //TVF 中的cumulate累计窗口
 //cumulate(table tableName,descriptor(timecol),step,size):作为一张表存在
 //tableName:表名
 //timecol:时间属性字段
 //step:累计步长,跟滑动步长类似
 //size:窗口长度
 //特别注意!!!!
 //1.累计窗口的步长与窗口长度同样是需要整数倍关系
 // 2.如果在sql中使用了cumulate窗口,则一定需要group by,而且group by后一定有window_start,window_end两个字段
 package net.cyan.FlinkSql.TVF;
 ​
 import net.cyan.POJO.WaterSensor;
 import org.apache.flink.api.common.eventtime.WatermarkStrategy;
 import org.apache.flink.streaming.api.datastream.DataStream;
 import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
 import org.apache.flink.table.api.Table;
 import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
 ​
 import java.time.Duration;
 ​
 import static org.apache.flink.table.api.Expressions.$;
 ​
 public class Demo3_Window_TVF_cumulate {
     public static void main(String[] args) {
         //创建执行环境
         StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
         //创建表的运行环境
         StreamTableEnvironment tabEnv = StreamTableEnvironment.create(env);
         env.setParallelism(1);
         DataStream<WaterSensor> waterSensorStream =
                 env.fromElements(
                         new WaterSensor("sensor_1", 1000L, 10),
                         new WaterSensor("sensor_1", 2000L, 20),
                         new WaterSensor("sensor_2", 3000L, 30),
                         new WaterSensor("sensor_1", 4000L, 40),
                         new WaterSensor("sensor_1", 5000L, 50),
                         new WaterSensor("sensor_2", 6000L, 60))
                        .assignTimestampsAndWatermarks(
                                 WatermarkStrategy
                                        .<WaterSensor>forBoundedOutOfOrderness(Duration.ofSeconds(3))
                                        .withTimestampAssigner((ws, ts) -> ws.getTs())
 ​
                        );
         //创建table
         Table table = tabEnv.fromDataStream(waterSensorStream,$("id"),$("ts"),$("vc"),$("et").rowtime());
         //创建表
         tabEnv.createTemporaryView("sensor",table);
         //执行sql
         //TVF 中的cumulate累计窗口
         //cumulate(table tableName,descriptor(timecol),step,size):作为一张表存在
         //tableName:表名
         //timecol:时间属性字段
         //step:累计步长,跟滑动步长类似
         //size:窗口长度
         //特别注意!!!!
         //1.累计窗口的步长与窗口长度同样是需要整数倍关系
         // 2.如果在sql中使用了cumulate窗口,则一定需要group by,而且group by后一定有window_start,window_end两个字段
         tabEnv.sqlQuery("select" +
                 " window_start,window_end,id," +
                 " sum(vc) sum_vc" +
                 " from table (cumulate(table sensor,descriptor(et),interval '2' second,interval '6' second)) " +
                 "group by window_start,window_end,id")
                .execute()
                .print();
    }
 }
 

FlinkSQL之Windowing TVF的更多相关文章

  1. Flink 实践教程-进阶(5):排序(乱序调整)

    作者:腾讯云流计算 Oceanus 团队 流计算 Oceanus 简介 流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发.无缝连接.亚 ...

  2. Storm Windowing storm滑动窗口简介

    Storm Windowing 简介 Storm可同时处理窗口内的所有tuple.窗口可以从时间或数量上来划分,由如下两个因素决定: 窗口的长度,可以是时间间隔或Tuple数量: 滑动间隔(slidi ...

  3. SQL Server 性能优化之——T-SQL TVF和标量函数

    阅读导航 1. TVF(表-值行数Table-Valued Functions)         a. 创建TVF         b. 使用TVF的低性能T-SQL         c. 使用临时表 ...

  4. jar tvf study.war jar命令查看war/jar包的内容

    jar tvf study.war 0 Thu Oct 20 14:01:18 CST 2016 META-INF/ 137 Thu Oct 20 14:01:16 CST 2016 META-INF ...

  5. [Hive - LanguageManual ] Windowing and Analytics Functions (待)

    LanguageManual WindowingAndAnalytics     Skip to end of metadata   Added by Lefty Leverenz, last edi ...

  6. pyglet: a cross-platform windowing and multimedia

    pyglet pyglet: a cross-platform windowing and multimedia library for Python.

  7. SQL Fundamentals: 子查询 || 分析函数(PARTITION BY,ORDER BY, WINDOWING)

    SQL Fundamentals || Oracle SQL语言 子查询(基础) 1.认识子查询 2.WHERE子句中使用子查询 3.在HAVING子句中使用子查询 4.在FROM子句中使用子查询 5 ...

  8. Storm API,Tutorial,Trident,Windowing BOOKS

    http://storm.apache.org/releases/1.0.0/Trident-API-Overview.html https://stackoverflow.com/questions ...

  9. 袋鼠云研发手记 | 开源·数栈-扩展FlinkSQL实现流与维表的join

    作为一家创新驱动的科技公司,袋鼠云每年研发投入达数千万,公司80%员工都是技术人员,袋鼠云产品家族包括企业级一站式数据中台PaaS数栈.交互式数据可视化大屏开发平台Easy[V]等产品也在迅速迭代.在 ...

随机推荐

  1. Cannot resolve method 'println(java.lang.String)'

    jsp文件中println爆红 <% int sum = 0; for (int i = 1; i <=100 ; i++) { sum+=i; } out.println("& ...

  2. 不想当Window的Dialog不是一个好Modal,弹窗翻身记

    弹窗是我们熟视无睹的一种交互方式,经常用到,但从没好好想过这种交互行为背后的意义... 弹窗是Windows的灵魂 Windows的灵魂是什么?当然是Window,当方便快捷的多窗口进入人们视野的时候 ...

  3. 华南理工大学 Python第1章课后小测

    1.(单选)计算机有两个基本特性:功能性和()性.(本题分数:5)A) 可存储B) 可计算C) 可通信D) 可编程您的答案:D  正确率:100%2.(单选)计算机硬件可以直接识别和执行的程序设计语言 ...

  4. 好书推荐之Mysql三剑客 :《高性能Mysql》、《Mysql技术内幕》、《数据库索引设计与优化》

    Mysql三剑客系列书籍: 大佬推荐 首先推荐<高性能 MySQL>,这本书是 MySQL 领域的经典之作,拥有广泛的影响力.不但适合数据库管理员(DBA)阅读,也适合开发人员参考学习.不 ...

  5. C语言[char**]与[malloc]的组合使用

    简介 首先!要搞懂char**是什么? 我们知道 char* 是字符指针,是一个地址,指向一个字符串. 那么 char** 就是指向 char* 的指针,也是一个地址,指向指针的指针. 使用char* ...

  6. 【学习笔记】注意力机制(Attention)

    前言 这一章看啥视频都不好使,啃书就完事儿了,当然了我也没有感觉自己学的特别扎实,不过好歹是有一定的了解了 注意力机制 由于之前的卷积之类的神经网络,选取卷积中最大的那个数,实际上这种行为是没有目的的 ...

  7. ECON 模式

    ECON模式通过调节发动机和空调系统的性能,有效提高燃油经济性. 在D行驶档的时候开启

  8. es日志配置,只保存最近3天的日志

    Elasticsearch使用Log4j 2进行日志记录.可以使用log4j2.properties文件配置Log4j2. Elasticsearch公开三个属性 ${sys:es.logs.base ...

  9. EFK-3: ES多实例部署

    转载自:https://mp.weixin.qq.com/s?__biz=MzUyNzk0NTI4MQ==&mid=2247483816&idx=1&sn=bfaf70613b ...

  10. 面试突击86:SpringBoot 事务不回滚?怎么解决?

    在 Spring Boot 中,造成事务不自动回滚的场景有很多,比如以下这些: 非 public 修饰的方法中的事务不自动回滚: 当 @Transactional 遇上 try/catch 事务不自动 ...