Flink State Backends (状态后端)

State Backends 的作用

有状态的流计算是Flink的一大特点，状态本质上是数据，数据是需要维护的，例如数据库就是维护数据的一种解决方案。State Backends 的作用就是用来维护State的。一个 State Backend 主要负责两件事：Local State Management(本地状态管理) 和 Remote State Checkpointing（远程状态备份）。

Local State Management（本地状态管理）

State Management 的主要任务是确保状态的更新和访问，类似于关系数据库中的数据，我们通过SQL可以精确定位到每一条数据，每一个字段。State Backends 就是确保我们能够精确定位到 State，然后对其进行访问或更新操作，从这一点上看，State Backends 与数据库的很相似。Flink 提供的 State Backends 主要有两种形式的状态管理：

直接将 State 以对象的形式存储到JVM的堆上面
将 State 对象序列化后存储到 RocksDB 中（RocksDB会写到本地的磁盘上）

以上两种方式，第一种存储到JVM堆中，因为是在内存中读写，延迟会很低，但State的大小受限于内存的大小；第二种方式存储到State Backends上（本地磁盘上），读写较内存会慢一些，但不受内存大小的限制，同时因为state存储在磁盘上，可以减少应用程序对内存的占用。根据使用经验，对延迟不是特别敏感的应用，选择第二种方式较好，尤其是State比较大的情况下。

Remote State Checkpointing（远程状态备份）

Flink程序是分布式运行的，而State都是存储到各个节点上的，一旦TaskManager节点出现问题，就会导致State的丢失。State Backend 提供了 State Checkpointing 的功能，将 TaskManager 本地的 State 的备份到远程的存储介质上，可以是分布式的存储系统或者数据库。不同的 State Backends 备份的方式不同，会有效率高低的区别。

如何选择状态后端？

根据上面的描述，状态后端的主要作用包括在每一个TaskManager节点上存储和管理状态，将状态进行远程备份两个部分。
FLink 目前提供了三种状态后端，分别是：

MemoryStateBackend
对于状态管理，MemoryStateBackend直接将State对象存储到TaskManager的JVM堆上，如MapState会被存储为一个HashMap对象。can suffer from garbage collection pauses because it puts many long-lived objects on the heap.
对于远程备份，MemoryStateBackend会将State备份到JobManager的堆内存上，这种方式是非常不安全的，且受限于JobManager的内存大小。
FsStateBackend
对于状态管理，FsStateBackend与MemoryStateBackend一样，将State存储到TaskManager的JVM堆上。
对于远程备份，FsStateBackend会将State写入到远程的文件系统，如HDFS中。
RocksDBStateBackend
对于状态管理，RocksDBStateBackend将state存储到TaskManager节点上的RocksDB数据库实例上。
对于远程备份，RocksDBstateBackend会将State备份到远程的存储系统中。

综上所述，MemoryStateBackend 和 FsStateBackend 都是在内存中进行状态管理，所以可以获取较低的读写延迟，但会受限于TaskManager的内存大小；而RocksDBStateBackend直接将State存储到RocksDB数据库中，所以不受JobManager的内存限制，但会有读写延迟，同时 RocksDBStateBackend 支持增量备份，这是其他两个都不支持的特性。一般来说，RocksDBStateBackend是很好的选择。