众所周知,flink是有状态的计算。所以学习flink不可不知状态。
        正好最近公司有个需求,要用到flink的状态计算,需求是这样的,收集数据库新增的数据。
        听起来很简单对吧?起初我也这么认为,现在发现,这尼玛就是变相的动态读取啊。
  因为数据是一直在增加的,你需要记录这次收集的结果,用于下一次的运算,所以要用到状态计算。
  废话不多说,直接上干货。
  关于什么是有状态的flink计算,官方给出的回答是这样的:在flink程序内部存储计算产生的中间结果,并提供给Function或算子计算结果使用。
了解了定义,我们接下来进入主题。
  

  1.状态类型

    在Flink中根据数据集是否根据Key进行分区,将状态分为Keyde state和Operator State两种类型。

    (1)Keyed State

      表示和key相关的一种state,只能用于KeyedStream类型数据集对应的Functions和Operators之上。Keyed State是Operator State的特例,区别在于Keyed State事先按照key对数据集进行了分区,每个Key State仅对应一个Operator和Key的组合。Keyed State可以通过Key Groups进行管理,主要用于当算子并行度发生变化时,自动重新分布Keyed State数据。在系统运行过程种,一个Keyed算子实例可能运行一个或者多个Key Groups 的 keys。

    (2)Operator State

      与Keyed State不同的是,Operator State只和并行的算子实例绑定,和数据元素种的key无关,每个算子实例中持有所有数据元素中的一部分状态数据。Operator State
 
    支持当算子实例并行度发生变化时自动重新分配状态数据。
 
    在Flink中,Keyed State和Operator State均具有两种形式,托管状态和原生状态。(两种状态有什么不同就不啰嗦了,看的头疼)
 

  2.Managed Keyed State

    Flink中有以下Managed Keyed State类型可以使用。ValueState[T],ListState[T],MapState[K,V]。

    (1)Stateful Function定义

    接下来通过完整的实例来说明如何在RichFlatmapFunction中使用ValueState,完成对介入数据最小值的获取。

    

StreamExecutionEnvironment env = StreamExecutionEnvironment .getExecutionEnvironment;
//创建元素数据集
DataStream<int,long> inputStream = env.fromElements((2,21L),(4,1L),(5,4L));
inputStream.keyBy(“1”).flatMap{
//定义和创建RichFlatMapFunction,第一个参数位输入数据类型,第二个参数位输出数据类型
new RichFlatMapFunction<Map(int,long),Map(int,Map(long,long))>(){
private ValueState leastValueState = null;
@Override
open(Configuration parameters){
ValueStateDescriptor leastValueStateDescriptor =new ValueStateDescriptor ("leastValueState ",class.of(long));
   leastValueState = getRuntimeContext.getState(leastValueStateDescriptor );
} @Override
flatMap(Collector collector,Tuple2(int,long) t){
  long leastValue =leastValueState .value();
  if(t.f1>leastValue){
    collector.collect(t,leastValue);
  }else{
    leastValueState.update(t.f1);
    collector.collect(t,leastValue);
  }
 }
}
}

  3.Managed Operator State

  Operator State是一种non-keyed state,与并行的操作算子实际相关联,例如在Kafka Connector中,每个Kafka消费端算子实例都对应到Kafka的一个分区中,维护Topic分区和Offsets偏移量作为算子的Operator State。在Flink中可以实现CheckpointedFunction或者ListCheckpointed两个接口来定义操作Managed Operator State的函数。

  (1)通过CheckpointedFunction接口操作Operator State

CheckpointedFunction接口定义:

public interface CheckpointedFunction{
//触发checkpoint调用
void snapshotState(FunctionSnapshotContext context)throws Exception;
//每次自定义函数初始化时,调用
void initializeState(FunctionInitializationContext context)throws Exception;
}

  在每个算子中Managed Operator State都是以List形式存储,算子和算子之间的状态数据相互独立,List存储比较适合状态数据的重新分布,Flink目前支持对Managed OperatorState两种重分布的策略,分别是Even-split Redistribution和Union Redistribution。

  可以通过实现FlatMapFunction和CheckpointedFunction完成对输入数据中每个key的数据元素数量和算子的元素数量的统计。

  在initializeState()方法中分别简历keyedState和operator State两种状态,存储基于Key相关的状态值以及基于算子的状态值。

private class CheckpointCount(int numElements)extends FlatMapFunction<Map(int,long),Map(int,Map(long,long))>with CheckpointedFunction{
//定义算子实例本地变量,存储Operator数据数量
private long operatorCount = null;
//定义keyedState,存储和key相关的状态值
private ValueState keyedState =null;
//定义operatorState,存储算子的状态值
private ListState operatorState = null;
@Override
flatMap(Tuple(int,long)t,Collector collector){
long keyedCount okeyedState.value() +1;
//更新keyedState数量
keyedState.update(keyedCount);
//更新本地算子operatorCount值
operatorCount =operatorCount+1;
//输出结果,包括id,id对应的数量统计keyedCount,算子输入数据的数量统计operatorCount
collector.collect(t.f0,keyedCount,operatorCount); }
//初始化状态数据
@Override
initializeState(FunctionInitializationContext context){
//定义并获取keyedState
ValueStateDescriptor KeyedDescriptor =new ValueStateDescriptor ("keyedState",createTypeInformation);
keyedState = context.getKeyedStateStore.getState(KeyedDescriptor );
//定义并获取operatorState
ValueStateDescriptor OperatorDescriptor =new ValueStateDescriptor ("OperatorState",createTypeInformation);
operatorState = context.getOperatorStateStore.getListState();
//定义在Restored过程中,从operatorState中回复数据的逻辑
if(context.isRestored){
operatorCount = operatorState.get()
}
//当发生snapshot时,将operatorCount添加到operatorState中
@Override
snapshotState(FunctionSnapshotContext context){
operatorState.clear();
operatorState.add(operatorCount);
}
}
}

可以从上述代码看到,在snapshotState()方法中清理掉上一次checkpoint中存储的operatorState的数据,然后再添加并更新本次算子中需要checkpoint的operatorCount状态变量。当重启时会调用initializeState方法,重新恢复keyedState和OperatorState,其中operatorCount数据可以从最新的operatorState中恢复。

(2)通过ListCheckpointed接口定义Operator State

  ListCheckpointed接口和CheckpointedFunction接口相比再灵活性上相对较弱一点,只能支持List类型的状态,并且在数据恢复时仅支持even-redistribution策略。

  需要实现以下两个方法来操作Operator State:

  

List<T> snapshotState(long checkpointId,long timestamp) throws Exception;
void restoreState(List<T> state) throws Exception;

  其中snapshotState方法定义数据元素List存储到checkpoints的逻辑,restoreState方法则定义从checkpoints中恢复状态的逻辑。

class numberRecordsCount extends FlatMapFunction(Map(String,long),Map(String,long))with ListCheckpointed{
private long numberRecords =0L;
@Override
flatMap(Tuple2(String,long)t,Collector collector){
//接入一条记录则进行统计,并输出
numberRecords +=1;
collector.collect(t.f0,numberRecords);
}
@Override
snapshotState(long checkpointId){
Collections.singletonList(numberRecords);
}
@Override
restoreState(List<long> list){
numberRecords =0L;
for(count <list){
//从状态中恢复numberRecords数据
numberRecords +=count
}
}
}
  空洞的代码是没有感染力的,所以前面我铺垫了这么多,希望接下来的总结能对大家有所帮助。
  
  以上所有总结参考张利兵《flink原理、实战与性能优化》第五章。附:原文是用scala写的,因为楼主所在的公司用的java,所以将所有代码用java改写了一遍。如果有看着不方便的
 
朋友,可以去看原文嘿嘿。
 
  作为刚接触flink的小白,本文只讲了状态的基本知识。后续可能会有如何存储状态以及flink状态机制优化。
 
  欢迎大家不吝赐教。 

Flink状态专题:keyed state和Operator state的更多相关文章

  1. 大数据计算引擎之Flink Flink状态管理和容错

    这里将介绍Flink对有状态计算的支持,其中包括状态计算和无状态计算的区别,以及在Flink中支持的不同状态类型,分别有 Keyed State 和 Operator State .另外针对状态数据的 ...

  2. Flink状态管理与状态一致性(长文)

    目录 一.前言 二.状态类型 2.1.Keyed State 2.2.Operator State 三.状态横向扩展 四.检查点机制 4.1.开启检查点 (checkpoint) 4.2.保存点机制 ...

  3. 第09讲:Flink 状态与容错

    Flink系列文章 第01讲:Flink 的应用场景和架构模型 第02讲:Flink 入门程序 WordCount 和 SQL 实现 第03讲:Flink 的编程模型与其他框架比较 第04讲:Flin ...

  4. Flink学习(三)状态机制于容错机制,State与CheckPoint

    摘自Apache官网 一.State的基本概念 什么叫State?搜了一把叫做状态机制.可以用作以下用途.为了保证 at least once, exactly once,Flink引入了State和 ...

  5. 使用Operator State方式

    使用 operator state的方式有以下几种: 方式一: stateful function(RichFunction) 实现 CheckpointFunction 接口 必须实现两个方法:Vo ...

  6. 总结Flink状态管理和容错机制

    本文来自8月11日在北京举行的 Flink Meetup会议,分享来自于施晓罡,目前在阿里大数据团队部从事Blink方面的研发,现在主要负责Blink状态管理和容错相关技术的研发.   本文主要内容如 ...

  7. Flink状态管理和容错机制介绍

    本文主要内容如下: 有状态的流数据处理: Flink中的状态接口: 状态管理和容错机制实现: 阿里相关工作介绍: 一.有状态的流数据处理# 1.1.什么是有状态的计算# 计算任务的结果不仅仅依赖于输入 ...

  8. 关于 Flink 状态与容错机制

    Flink 作为新一代基于事件流的.真正意义上的流批一体的大数据处理引擎,正在逐渐得到广大开发者们的青睐.就从我自身的视角看,最近也是在数据团队把一些原本由 Flume.SparkStreaming. ...

  9. 自动化运维工具SaltStack - 多环境(使用记录【state.sls 与 state.highstate】)

    转自:https://segmentfault.com/a/1190000000513137 今天在进行 saltstack 多环境的时候,遇到一个问题,最终得到解决,好记性不如烂笔头,记录. 首先, ...

随机推荐

  1. 《深入理解ES6》读书笔记

    文章目录 第一章 块级绑定 1. var 声明与变量提升 2. let 与 var 的区别 第二章 字符串与正则表达式 1.字符串扩展 1.1 includes().startsWith() .end ...

  2. CSS中浮动的使用

    CSS有两个性质 第一个是 :继承性 第二个是:层叠性: 选择器的一种选择能力,谁的权重大就选谁 { 里面分两种情况: 分别是 选中和没选中. 1.选不中的情况下,走继承性,(font,color,t ...

  3. Google Chrome浏览器插件入门开发

    --1. 在html文件中引用js 文件 --2.在Google Chrome中开发简单插件 1.首先,简单说明一下在html 中引用js 文件: 将kittenbook.html 和 kittenb ...

  4. PyCharm问题-ModuleNotFoundError: No module named 'pymysql'

    在使用PyCharm时遇到pymysql模块导入有问题,本人使用的是Windows,但解决问题的方法是一致的,先来安装pymysql: 用管理员身份运行CMD.exe,然后查看python的安装路径 ...

  5. 小容量单片机生成pdf文件

    工作上要求使用小容量单片机生成直接生成pdf文件.经过一段时间的摸索,其中参考了libharu,库太大,不适合在单片机上使用页参考了与非网上一位前辈的库,占用的RAM太大,不适合小容量单片机,主要资料 ...

  6. 装饰器&递归

    装饰器 1.开放封闭原则 ​ 在源码不改变的情况下,增加一些额外的功能 对扩展是开放的,对修改是封闭的 1.1 开放原则:增加额外新功能 1.2 封闭原则:不要改变源码 2 装饰器 满足开放封闭原则, ...

  7. UVALive 7037:The Problem Needs 3D Arrays(最大密度子图)

    题目链接 题意 给出n个点,每个点有一个值,现在要选择一些点的集合,使得(选择的点生成的逆序对数目)/(选择的点的数量)的比率最大. 思路 点与点之间生成一个逆序对可以看做是得到一个边,那么就是分数规 ...

  8. 006.SQLServer AlwaysOn可用性组高可用部署

    一 数据库镜像部署准备 1.1 数据库镜像支持 有关对 SQL Server 2012 中的数据库镜像的支持的信息,请参考:https://docs.microsoft.com/zh-cn/previ ...

  9. 【POJ - 1190】生日蛋糕 (dfs+剪枝)

    Descriptions: 7月17日是Mr.W的生日,ACM-THU为此要制作一个体积为Nπ的M层生日蛋糕,每层都是一个圆柱体. 设从下往上数第i(1 <= i <= M)层蛋糕是半径为 ...

  10. ROS中URDF的学习以及与Xacro的比较

    1.urdf与Xacro简单比较 "URDF" 是最初也是比较简单的机器人描述文件,它的结构简单明了,容易理解.但是这也导致当机器人模型变得复杂时,urdf的结构描述就变得冗长,无 ...