flink处理延迟

flink主要是处理实时数据的，在处理实时数据的过程中，难免会遇到乱序的存在。以事件时间举例，先发生的事件后到处理算子。flink针对乱序数据的处理主要有三种方式：

拨慢水位线的生成，这种情况会在声明的窗口时间中，类似延迟窗口时间的大小，实际是把水位线的生成减小了1秒，导致窗口延迟关闭。下面的例子声明创建了一个滚动事件时间窗口，有效期是5秒，但是在生成水位线的时候，会拨慢1秒，如果是1000毫秒开始，实际计算触发的时间是6000毫秒时触发，窗口有效期是[0,4999)

.assignTimestampsAndWatermarks(WatermarkStrategy.

                        <Tuple3<String, String, Long>>forBoundedOutOfOrderness(Duration.ofSeconds(1))

                        .withTimestampAssigner(new SerializableTimestampAssigner<Tuple3<String, String, Long>>() {

                            @Override

                            public long extractTimestamp(Tuple3<String, String, Long> element, long recordTimestamp) {

                                return element.f2;

                            }

                        })

                ).keyBy(data -> data.f0)

                .window(TumblingEventTimeWindows.of(Time.seconds(5)))

Bob,成都,1000

Bob,成都,4000

Bob,成都,5000

Bob,成都,6000

 窗口 0 - 5000 中共有 2 个元素，窗口关闭时，当前水位线4999

allowedLateness延长窗口时间

上面的水位线到达临界点时，触发计算，触发计算的同时，关闭窗口，再迟到的数据就不再处理了。allowedLateness的原理就是延长窗口的关闭时间，水位线到点了，触发计算，但是窗口暂时不会关闭在allowedLateness周期内，再迟到的数据仍然允许再次处理

ds.map(new MapFunction<String, Tuple3<String,String,Long>>() {

                    @Override

                    public Tuple3<String, String, Long> map(String value) throws Exception {

                        String[] split = value.split(",");

                        System.out.println(value);

                        return Tuple3.of(split[0],split[1],Long.valueOf(split[2]));

                    }

                }).assignTimestampsAndWatermarks(WatermarkStrategy.

                        <Tuple3<String, String, Long>>forBoundedOutOfOrderness(Duration.ofSeconds(1))

                        .withTimestampAssigner(new SerializableTimestampAssigner<Tuple3<String, String, Long>>() {

                            @Override

                            public long extractTimestamp(Tuple3<String, String, Long> element, long recordTimestamp) {

                                return element.f2;

                            }

                        })

                ).keyBy(data -> data.f0)

                .window(TumblingEventTimeWindows.of(Time.seconds(5)))

                .allowedLateness(Time.minutes(1))

Bob,成都,1000

Bob,成都,3000

Bob,成都,5000

Bob,成都,6000

 窗口 0 - 5000 中共有 2 个元素，窗口关闭时，当前水位线4999

Bob,成都,16000

 窗口 5000 - 10000 中共有 2 个元素，窗口关闭时，当前水位线14999

Bob,成都,4000

 窗口 0 - 5000 中共有 3 个元素，窗口关闭时，当前水位线14999

sideOutputLateData侧输出流

上面的两种方式，都是通过延迟水位线或者延长窗口的方式来处理的，实际处理过程中都会占据资源，不可能一直延迟水位线或者让窗口一直存在，在允许范围内的数据处理完毕之后，还得有一种兜底方案，处理极限情况，那就是直接把迟到的数据输出到侧输出流。

OutputTag<Tuple3<String, String, Long>> lateTag = new OutputTag<Tuple3<String, String, Long>>("late"){};

        env.setParallelism(1);

        SingleOutputStreamOperator<String> process = ds.map(new MapFunction<String, Tuple3<String, String, Long>>() {

                    @Override

                    public Tuple3<String, String, Long> map(String value) throws Exception {

                        String[] split = value.split(",");

                        System.out.println(value);

                        return Tuple3.of(split[0], split[1], Long.valueOf(split[2]));

                    }

                }).assignTimestampsAndWatermarks(WatermarkStrategy.

                        <Tuple3<String, String, Long>>forBoundedOutOfOrderness(Duration.ofSeconds(1))

                        .withTimestampAssigner(new SerializableTimestampAssigner<Tuple3<String, String, Long>>() {

                            @Override

                            public long extractTimestamp(Tuple3<String, String, Long> element, long recordTimestamp) {

                                return element.f2;

                            }

                        })

                ).keyBy(data -> data.f0)

                .window(TumblingEventTimeWindows.of(Time.seconds(5)))

                .allowedLateness(Time.minutes(1))

                .sideOutputLateData(lateTag)

完整的测试代码如下

public class SideOutPutLateTest {

    public static void main(String[] args) throws Exception {

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        DataStreamSource<String> ds = env.socketTextStream("hadoop103", 9999);

        OutputTag<Tuple3<String, String, Long>> lateTag = new OutputTag<Tuple3<String, String, Long>>("late"){};

        env.setParallelism(1);

        SingleOutputStreamOperator<String> process = ds.map(new MapFunction<String, Tuple3<String, String, Long>>() {

                    @Override

                    public Tuple3<String, String, Long> map(String value) throws Exception {

                        String[] split = value.split(",");

                        System.out.println(value);

                        return Tuple3.of(split[0], split[1], Long.valueOf(split[2]));

                    }

                }).assignTimestampsAndWatermarks(WatermarkStrategy.

                        <Tuple3<String, String, Long>>forBoundedOutOfOrderness(Duration.ofSeconds(1))

                        .withTimestampAssigner(new SerializableTimestampAssigner<Tuple3<String, String, Long>>() {

                            @Override

                            public long extractTimestamp(Tuple3<String, String, Long> element, long recordTimestamp) {

                                return element.f2;

                            }

                        })

                ).keyBy(data -> data.f0)

                .window(TumblingEventTimeWindows.of(Time.seconds(5)))

                .allowedLateness(Time.minutes(1))

                .sideOutputLateData(lateTag)

                .process(new ProcessWindowFunction<Tuple3<String, String, Long>, String, String, TimeWindow>() {

                    @Override

                    public void process(String s, ProcessWindowFunction<Tuple3<String, String, Long>, String, String, TimeWindow>.Context context, Iterable<Tuple3<String, String, Long>> iterable, Collector<String> collector) throws Exception {

                        long start = context.window().getStart();

                        long end = context.window().getEnd();

                        long watermark = context.currentWatermark();

                        long count = iterable.spliterator().getExactSizeIfKnown();

                        collector.collect(" 窗口 " + start + " - " + end + " 中共有 " + count + " 个元素，窗口关闭时，当前水位线" +

                                +watermark);

                    }

                });

//        ds.print();

        process.print();

        process.getSideOutput(lateTag).print("迟到数据");

        env.execute();

    }

}

flink处理延迟的更多相关文章

深入理解Flink核心技术（转载）
作者:李呈祥 Flink项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多的人关注Flink项目.本文将深入分析Flink一些关键的技术与特性,希望能够帮助读者 ...
Storm VS Flink ——性能对比
1.背景 Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架.其中 Apache Storm(以下简称"Storm")在美团点评实时 ...
深入了解 Flink 网络栈（二）：监控、指标和处理背压
在之前的文章中,我们从高级抽象到底层细节各个层面全面介绍了 Flink 网络栈的工作机制.作为这一系列的第二篇文章,本文将在第一篇的基础上更进一步,主要探讨如何监视与网络相关的指标,从而识别背压等因素 ...
[白话解析] Flink的Watermark机制
[白话解析] Flink的Watermark机制 0x00 摘要对于Flink来说,Watermark是个很难绕过去的概念.本文将从整体的思路上来说,运用感性直觉的思考来帮大家梳理Watermark ...
[Flink] Flink的waterMark的通俗理解
导读 Flink 为实时计算提供了三种时间,即事件时间(event time).摄入时间(ingestion time)和处理时间(processing time). 遇到的问题: 假设在一个5秒的T ...
flink进阶篇
Flink 面试--进阶篇 1.Flink是如何支持批流一体的? 2.Flink是如何做到高效的数据交换的? 3.Flink是如何做容错的? 4.Flink 分布式快照的原理是什么? 5.Flink ...
《基于Apache Flink的流处理》读书笔记
前段时间详细地阅读了 <Apache Flink的流处理> 这本书,作者是 Fabian Hueske&Vasiliki Kalavri,国内崔星灿翻译的,这本书非常详细.全面得介 ...
Flink 中LatencyMarks延迟监控（源码分析）
流式计算中处理延迟是一个非常重要的监控metric flink中通过开启配置 metrics.latency.interval 来开启latency后就可以在metric中看到askManage ...
使用Apache Flink 和 Apache Hudi 创建低延迟数据湖管道
近年来出现了从单体架构向微服务架构的转变.微服务架构使应用程序更容易扩展和更快地开发,支持创新并加快新功能上线时间.但是这种方法会导致数据存在于不同的孤岛中,这使得执行分析变得困难.为了获得更深入和更 ...

随机推荐

JavaWeb知识梳理（可收藏）
**JavaWeb相关知识 ** 1.Servlet 1.1 Status Code(Http状态码) 1.1xx 请求信息 Http状态码 Http Status Code Http状态码含义中文说 ...
在 Docker 上快速运行 Apache Airflow 2.2.4
Docker 安装 Apache Airflow 参考资料 Running Airflow in Docker 安装依赖 Docker Engine Docker Composite 快速运行 Apa ...
java获取登录ip和地址
//获取HttpServletRequest对象 ServletRequestAttributes attributes = (ServletRequestAttributes) RequestCon ...
通过nfs将centos目录挂载到windows 系统的磁盘上
环境:centos8,windows7 1.在centos上安装nfs服务 yum -y install nft-utils 2.启动nfs服务 systemctl start nfs-server ...
AWS-Basic-S3
Amazon Simple Storage Service,简称 S3 服务,是 AWS 2006 年推出的第一个服务,用于提供对象存储服务.其在可拓展性,数据可用性,安全性和性能都有着非常不错的体验 ...
java序列回显学习
java反序列化回显在很多不出网的情况下,一种是写webshell(内存嘛),另一种就是回显,本文先学习回显,回显的主要方式有一下几种. defineClass RMI绑定实例 URLClassLo ...
XCTF练习题---MISC---2017_Dating_in_Singapore
XCTF练习题---MISC---2017_Dating_in_Singapore flag:HITB{CTFFUN} 解题步骤: 1.观察题目,下载附件 2.打开附件后发现是一张日历,还是新加坡的, ...
[操作系统]LINUX进程状态说明
R(task_running) : 可执行状态只有在该状态的进程才可能在CPU上运行.而同一时刻可能有多个进程处于可执行状态,这些进程的task_struct结构(进程控制块)被放入对应CPU的 ...
使用fastai训练的一个性别识别模型
在学习了python中的一些机器学习的相关模块后,再一次开始了深度学习之旅.不过与上次的TensorFlow框架不同,这一次接触的是fast.ai这样一个东西.这个框架还不稳定,网上也没有相关的中文文 ...
pycham的安装、优化、使用
一.下载与安装下载地址:https://confluence.jetbrains.com/display/PYH/Previous+PyCharm+Releases 注册:参考地址:http://i ...

flink处理延迟

flink处理延迟

完整的测试代码如下

flink处理延迟的更多相关文章

随机推荐

热门专题