Flink -- Keyed State

    /* <pre>{@code

     * DataStream<MyType> stream = ...;

     * KeyedStream<MyType> keyedStream = stream.keyBy("id");

     *

     * keyedStream.map(new RichMapFunction<MyType, Tuple2<MyType, Long>>() {

     *

     *     private ValueState<Long> count;

     *

     *     public void open(Configuration cfg) {

     *         state = getRuntimeContext().getState(

     *                 new ValueStateDescriptor<Long>("count", LongSerializer.INSTANCE, 0L));

     *     }

     *

     *     public Tuple2<MyType, Long> map(MyType value) {

     *         long count = state.value() + 1;

     *         state.update(value);

     *         return new Tuple2<>(value, count);

     *     }

     * });

     * }</pre>

     */

在使用keyed state时，首先需要初始化，这里以ValueState为例子，

state = getRuntimeContext().getState(new ValueStateDescriptor<Long>("count", LongSerializer.INSTANCE, 0L));

1. 每个state需要一个标识，ValueStateDescriptor，包含唯一名字，Class，和default值

public ValueStateDescriptor(String name, Class<T> typeClass, T defaultValue)

2. getState，向stateBackend注册keyed state，

StreamingRuntimeContext

    public <T> ValueState<T> getState(ValueStateDescriptor<T> stateProperties) {

        KeyedStateStore keyedStateStore = checkPreconditionsAndGetKeyedStateStore(stateProperties);

        stateProperties.initializeSerializerUnlessSet(getExecutionConfig());

        return keyedStateStore.getState(stateProperties);

    }

调用keyedStateStore.getState(stateProperties)

KeyedStateStore其实就是KeyedStateBackend的封装

public class DefaultKeyedStateStore implements KeyedStateStore {

    private final KeyedStateBackend<?> keyedStateBackend;

    private final ExecutionConfig executionConfig;

    @Override

    public <T> ValueState<T> getState(ValueStateDescriptor<T> stateProperties) {

        try {

            stateProperties.initializeSerializerUnlessSet(executionConfig);

            return getPartitionedState(stateProperties);

        } catch (Exception e) {

            throw new RuntimeException("Error while getting state", e);

        }

    }

最终是调用到，keyedStateBackend

   private <S extends State> S getPartitionedState(StateDescriptor<S, ?> stateDescriptor) throws Exception {

        return keyedStateBackend.getPartitionedState(

                VoidNamespace.INSTANCE,

                VoidNamespaceSerializer.INSTANCE,

                stateDescriptor);

    }

AbstractKeyedStateBackend

   public <N, S extends State> S getPartitionedState(

            final N namespace,

            final TypeSerializer<N> namespaceSerializer,

            final StateDescriptor<S, ?> stateDescriptor) throws Exception {

        final S state = getOrCreateKeyedState(namespaceSerializer, stateDescriptor);

        final InternalKvState<N> kvState = (InternalKvState<N>) state;

        return state;

    }

getOrCreateKeyedState

    public <N, S extends State, V> S getOrCreateKeyedState(

            final TypeSerializer<N> namespaceSerializer,

            StateDescriptor<S, V> stateDescriptor) throws Exception {

        InternalKvState<?> existing = keyValueStatesByName.get(stateDescriptor.getName());

        if (existing != null) {

            @SuppressWarnings("unchecked")

            S typedState = (S) existing;

             return typedState;  //如果keyValueStatesByName有直接返回

        }

        // create a new blank key/value state

        S state = stateDescriptor.bind(new StateBinder() {

            @Override

            public <T> ValueState<T> createValueState(ValueStateDescriptor<T> stateDesc) throws Exception {

                return AbstractKeyedStateBackend.this.createValueState(namespaceSerializer, stateDesc);

            }

        });

        InternalKvState<N> kvState = (InternalKvState<N>) state;

        keyValueStatesByName.put(stateDescriptor.getName(), kvState); //把新产生的state注册到keyValueStatesByName

3. ValueState读写，value，update

看下ValueState的定义，

HeapValueState

public class HeapValueState<K, N, V>

        extends AbstractHeapState<K, N, V, ValueState<V>, ValueStateDescriptor<V>>

        implements InternalValueState<N, V> {

    /**

     * Creates a new key/value state for the given hash map of key/value pairs.

     *

     * @param stateDesc The state identifier for the state. This contains name

     *                           and can create a default state value.

     * @param stateTable The state tab;e to use in this kev/value state. May contain initial state.

     */

    public HeapValueState(

            ValueStateDescriptor<V> stateDesc,

            StateTable<K, N, V> stateTable,

            TypeSerializer<K> keySerializer,

            TypeSerializer<N> namespaceSerializer) {

        super(stateDesc, stateTable, keySerializer, namespaceSerializer);

    }

    @Override

    public V value() {

        final V result = stateTable.get(currentNamespace);

        if (result == null) {

            return stateDesc.getDefaultValue();

        }

        return result;

    }

    @Override

    public void update(V value) {

        if (value == null) {

            clear();

            return;

        }

        stateTable.put(currentNamespace, value);

    }

}

都是通过StateTable，

CopyOnWriteStateTable

    @Override

    public S get(N namespace) {

        return get(keyContext.getCurrentKey(), namespace);

    }

    @Override

    public boolean containsKey(N namespace) {

        return containsKey(keyContext.getCurrentKey(), namespace);

    }

    @Override

    public void put(N namespace, S state) {

        put(keyContext.getCurrentKey(), namespace, state);

    }

可以看到value不光是记录一个value，而是记录key，namespace，value的关系

其中key是通过，keyContext.getCurrentKey()去到的

keyContext就是KeyedStateBackend

在StreamInputProcessor.processInput的时候，会通过

streamOperator.setKeyContextElement1(record);

把当前的key设置到KeyedStateBackend

这就是为何，对state的操作都是按key隔离开的

Flink -- Keyed State的更多相关文章

Flink状态专题：keyed state和Operator state
众所周知,flink是有状态的计算.所以学习flink不可不知状态. 正好最近公司有个需求,要用到flink的状态计算,需求是这样的,收集数据库新增的数据. ...
Flink之state processor api原理
无论您是在生产环境中运行Apache Flink or还是在过去将Flink评估为计算框架,您都可能会问自己一个问题:如何在Flink保存点中访问,写入或更新状态?不再询问!Apache Flink ...
从udaf谈flink的state
1.前言本文主要基于实践过程中遇到的一系列问题,来详细说明Flink的状态后端是什么样的执行机制,以理解自定义函数应该怎么写比较合理,避免踩坑. 内容是基于Flink SQL的使用,主要说明自定义聚 ...
Flink之state processor api实践
前不久,Flink社区发布了FLink 1.9版本,在其中包含了一个很重要的新特性,即state processor api,这个框架支持对checkpoint和savepoint进行操作,包括读取. ...
「Flink」使用Managed Keyed State实现计数窗口功能
先上代码: public class WordCountKeyedState { public static void main(String[] args) throws Exception { S ...
Flink - Working with State
All transformations in Flink may look like functions (in the functional processing terminology), but ...
Managing Large State in Apache Flink®: An Intro to Incremental Checkpointing
January 23, 2018- Apache Flink, Flink Features Stefan Richter and Chris Ward Apache Flink was purpos ...
Flink学习（三）状态机制于容错机制，State与CheckPoint
摘自Apache官网一.State的基本概念什么叫State?搜了一把叫做状态机制.可以用作以下用途.为了保证 at least once, exactly once,Flink引入了State和 ...
Flink中案例学习--State与CheckPoint理解
1.State概念理解在Flink中,按照基本类型,对State做了以下两类的划分:Keyed State, Operator State. Keyed State:和Key有关的状态类型,它只能被 ...

随机推荐

物联网架构成长之路(20)-申请免费SSL证书
0.前言今天域名备案申请下来了,接下来就是申请个SSL证书,现在普通的网站没有SSL都不好意思见人了.可是稍微好点的企业级SSL证书还是比较贵的.不过还好有免费的可以用.只不过要定时去续时间.这个不 ...
物联网架构成长之路(23)-Docker练习之Elasticsearch服务搭建
0. 前言最近基本都是学一些环境配置,和一些中间件的安装与配置.没有实际编写代码.可能看起来有点水,我对自己的学习方式是,先要了解各个中间件的安装配置以及简单使用,理论应用场景,然后我在小项目中,逐 ...
Java Utils工具类大全(转)
源码和jar见:https://github.com/evil0ps/utils #Java Utils --- 封装了一些常用Java操作方法,便于重复开发利用. 另外希望身为Java牛牛的你们一起 ...
在Android 5.0中使用JobScheduler（转载）
翻译见:http://blog.csdn.net/bboyfeiyu/article/details/44809395 In this tutorial, you will learn how to ...
Java知多少（1）语言概述
Java语言是SUN(Stanford University Network,斯坦福大学网络公司)公司1995年推出的一门高级编程语言,起初主要应用在小型消费电子产品上,后来随着互联网的兴起,Java ...
ubuntu安装anaconda后，终端输入conda，出现未找到命令
解决办法: 终端输入:vim ~/.bashrc 键盘大写“G”,在最末端输入:export PATH=~/anaconda2/bin:$PATH 使其生效:source ~/.bashrc 打印 ...
Spark学习笔记——Spark上数据的获取、处理和准备
数据获得的方式多种多样,常用的公开数据集包括: 1.UCL机器学习知识库:包括近300个不同大小和类型的数据集,可用于分类.回归.聚类和推荐系统任务.数据集列表位于:http://archive.ic ...
缓存技术PK：选择Memcached还是Redis？
缓存技术PK:选择Memcached还是Redis? memcached完全剖析----------------->高质量文章 memcached的最佳实践方案数据缓存系统-memcached ...
Make ProgressBar Vertical
Create a drawable in your Drawable folder called vertical_progress_bar.xml: <?xml version="1 ...
修改torndb库为依赖pymysql，使其适应python3,一个更简单的操作数据库的类。
1.python的MySQLdb和pymysql是两个基本数据库操作包,MySQLdb安装很麻烦,要有c++相关环境,python3也安装不了. python3一般安装pymysql,此包与MySQL ...

Flink -- Keyed State

Flink -- Keyed State的更多相关文章

随机推荐

热门专题