flink 有状态udf 引起血案一

场景

近期在做一个画像的任务，sql实现的，当中有一个udf，会做非常多事情，包含将从redis读出历史值加权，并将中间结果和加权后的结果更新到redis。

大家都知道，flink 是能够支持事件处理的。也就是能够没有时间的概念，那么在聚合，join等操作的时候，flink内部会维护一个状态，假如此时你也用redis维护了历史状态，也即是相似 result = currentState（flink）+lastState（redis）。且此时要针对计算的结果用where进行筛选.

SQL例如以下

CREATE VIEW view_count AS
select
`time`,
gid,
cid,
count(feed_id) * 1 as strength
FROM
view_cid
GROUP BY
gid,
cid,`time`;

CREATE VIEW view_strength AS select
`time`,
gid,
cid ,
Get_Strength_Weaken(gid, cid, cast(strength as double), `time`, 0.95) as `result`
FROM
view_count
;

insert into
hx_app_server_sink_common
SELECT
gid,
cid,
`result`
FROM
view_strength
where `result` <> '0.0'
GROUP BY
gid,
cid,
`result`;

业务分析

第一个sql视图完毕的是首先分组，然后统计某一个字段并乘以权重；

第二个sql视图。udf ：Get_Strength_Weaken完毕当前值和历史值叠加工作，历史值存储在redis。同一时候将结果返回并更新redis，返回值作为result字段。

第三个sql在输出的时候，result字段作为了where的条件和group by里的字段。

这时候生成的flink概图例如以下：

观察中间的结构图能够发现。Get_Strength_Weaken被调用两次：

1. where条件。这个的生成是因为第三条sql

where `result` <> '0.0'

产生的运行计划，是不是看起来非常懵逼。。

。

2. select里面另一次调用Get_Strength_Weaken。这个非常明显。

当然。能够打印一下flink udf里eval函数的调用细节日志，非常easy发现反复调用的问题。浪院长这个也是通过分析日志。对照输出结果来得出的论。

综合上面分析和udf调用日志，结论就是udf被调用了两次。

对于这个flink的udf被多次调用引起的结果偏大。整整调试了一下午。

因为上面分析能够得出结论，flink将where条件下推了，where 条件推断会先运行，而select里后运行，那么能够调整SQL。例如以下：

CREATE VIEW view_count AS
select
`time`,
gid,
cid,
count(feed_id) * 1 as strength
FROM
view_cid
GROUP BY
gid,
cid,`time`;

CREATE VIEW view_strength AS select
`time`,
gid,
cid ,
getResult(gid,cid) as `result`
FROM
view_count
where Get_Strength_Weaken(gid, cid, cast(strength as double), `time`, 0.95) as `result` <> '0.0'
;

insert into
hx_app_server_sink_common
SELECT
gid,
cid,
`result`
FROM
view_strength
GROUP BY
gid,
cid,
`result`;

那么实际上。select里的udf主要目的是取出来计算结果。那么这个时候能够写个简单的udf--getResult，仅仅让他从redis获取 where条件里更新到redis里的结果，因为该udf是无状态的即使多次调用。也无所谓。

所以。总结一下，对于flink 来说，因为基于事件的处理，聚合、join等操作会有状态缓存，那么此时再用到含有外部存储状态的udf，一定要谨慎，结合运行计划，来合理放置udf的位置，避免出错。

当然。调试阶段最好是有具体的日志。便于分析和定位问题。

flink 状态删除

事实上。flink聚合等内部状态有配置能够使其自己主动删除的，具体配置使用例如以下：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
StreamTableEnvironment tableEnv = TableEnvironment.getTableEnvironment(env);

// obtain query configuration from TableEnvironment
StreamQueryConfig qConfig = tableEnv.queryConfig();
// set query parameters
qConfig.withIdleStateRetentionTime(Time.hours(12));

// define query
Table result = ...

// create TableSink
TableSink<Row> sink = ...

// emit result Table via a TableSink
result.writeToSink(sink, qConfig);

// convert result Table into a DataStream<Row>
DataStream<Row> stream = tableEnv.toAppendStream(result, Row.class, qConfig);

[完]

推荐阅读：

重要 : 优化flink的四种方式

flink超越Spark的Checkpoint机制

flink 有状态udf 引起血案一的更多相关文章

Flink的状态与容错
本文主要运行到Flink以下内容检查点机制(CheckPoint) 状态管理器(StateBackend) 状态周期(StateTtlConfig) 关系首先要将state和checkpoint概 ...
Flink Streaming状态处理（Working with State）
参考来源: https://www.jianshu.com/p/6ed0ef5e2b74 https://blog.csdn.net/Fenggms/article/details/102855159 ...
Flink之状态之savepoint
1.总览 savepoints是外部存储的自包含的checkpoints,可以用来stop and resume,或者程序升级.savepoints利用checkpointing机制来创建流式作业的状 ...
Flink之状态之checkpointing
1.前言在Flink中,函数和操作符都可以是有状态的.在处理每个消息或者元素时,有状态的函数都会储存信息,使得状态成为精密操作中关键的组成部分. 为了使状态能够容错,Flink会checkpoint ...
Flink之状态之状态存储 state backends
流计算中可能有各种方式来保存状态: 窗口操作使用了KV操作的函数继承了CheckpointedFunction的函数当开始做checkpointing的时候,状态会被持久化到checkpoin ...
Flink之状态之状态获取
1.什么是状态对于任何一个操作,都可以被看成是一个函数,比如y=f(x),如果对于同一个x的任何一次输入,得到的y都是相同的,则可以认为这个函数是无状态,否则,这个函数就是有状态的.Flink的一大 ...
flink checkpoint状态储存三种方式选择
Flink 提供了三种可用的状态后端:MemoryStateBackend,FsStateBackend,和RocksDBStateBackend. MemoryStateBackend Memory ...
「Flink」Flink的状态管理与容错
在Flink中的每个函数和运算符都是有状态的.在处理过程中可以用状态来存储数据,这样可以利用状态来构建复杂操作.为了让状态容错,Flink需要设置checkpoint状态.Flink程序是通过chec ...
9、flink的状态与容错
1.理解State(状态) 1.1.State 对象的状态 Flink中的状态:一般指一个具体的task/operator某时刻在内存中的状态(例如某属性的值) 注意:State和Checkpoint ...

随机推荐

psp表格记录-
PSP2.1 Personal Software Process Stages Time Planning 计划 · Estimate · 估计这个任务需要多少时间 12 Development 开发 ...
051 Kafka的安装
后来重新复习的时候,发现这篇文章不错:https://www.cnblogs.com/z-sm/p/5691760.html 一:前提 1.安装条件 Java Scala zookeeper Ka ...
Shiro笔记（五）Shiro授权
Shiro授权也叫访问控制,即在应用中控制谁能访问那些资源(如访问页面.编辑数据.页面操作等).在授权中需要了解几个关键对象:主体(subject).资源(resource).权限(Permissi ...
git checkout 撤销多个文件，撤销整个文件夹
git checkout 撤销多个文件,撤销整个文件夹 git checkout <folder-name>/ git checkout -- <folder-name> 这样 ...
ZOJ 3795 Grouping (强连通缩点+DP最长路)
<题目链接> 题目大意: n个人,m条关系,每条关系a >= b,说明a,b之间是可比较的,如果还有b >= c,则说明b,c之间,a,c之间都是可以比较的.问至少需要多少个集 ...
AOP编程-理论篇
本节内容主要讲解AOP编程理念,包括概念讲解,使用AOP的优势,如何实现AOP,常见的实现AOP的方法. 1.AOP的概念 AOP是Aspect Oriented Programming的缩写,意思是 ...
opencv3 学习笔记（二）
1.OpenCv 颜色追踪 import cv2import numpy as npcap=cv2.VideoCapture(0)cap.set(cv2.CAP_PROP_FRAME_WIDTH, 1 ...
AE插入音乐
将音乐文件(如MP3文件)直接拖拽到工程里就可以. 然后添加到合成里. 点击内容预览 ,就自动播放了. 在合成窗口里面,我们可以对于音频文件进行拖动,以及裁剪等操作,但是需要注意的是AE里面不能预览声 ...
Some Conclusions.
目录 DP 四边形不等式数论 & 数学数据结构树链剖分左偏树的性质及\(O(n)\)的构造图论树二分图竞赛图平面图双连通分量字符串后缀自动机复杂度分析没什么好写的. ...
Scrapy基础(五) ------css选择器基础
基本语法: * 选择所有节点#container 选择id为container的节点.container 选择所有class包含contai ...

flink 有状态udf 引起血案一

flink 有状态udf 引起血案一的更多相关文章

随机推荐

热门专题