Flink 状态后端
状态后端 (state backend) : 负责管理本地状态的存储方式, 位置
Flink 的状态后端有两类 :
- 哈希表状态后端 (HashMapStateBackend) : 状态放在内存
- 内嵌 RocksDB 状态后端 (EmbeddedRocksDBStateBackend) : 状态放在 RocksDB 数据库
哈希表状态后端 :
- 实现 : 将状态当作对象 (objects) , 保存在 Taskmanager 的 JVM 堆上
- 优点 : 内存计算,读写速度很快
- 缺点 : 状态的大小受集群可用内存的限制 , 当状态随时间增长,会耗尽内存
RocksDB 状态后端 :
- 实现 : 异步存储到 TaskManager 的本地目录
- 优点 : 硬盘存储 , 适合海量状态的存储
- 缺点 : 读写性能比哈希表慢些
配置
flink-conf.yaml
:
- 全局有效
# hashmap: HashMapStateBackend
# rocksdb: EmbeddedRocksDBStateBackend
# 默认状态后端
state.backend: hashmap
# 检查点和元数据写入目录
state.checkpoints.dir: hdfs://hadoop102:8020/flink/checkpoints
单作业 :
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setStateBackend(new HashMapStateBackend());
// EmbeddedRocksDBStateBackend
// env.setStateBackend(new EmbeddedRocksDBStateBackend());
idae 本地启动 , 用 RocksDB 依赖 :
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-statebackend-rocksdb</artifactId>
<version>${flink.version}</version>
</dependency>