淘先锋技术网

首页 1 2 3 4 5 6 7

Flink 状态后端

状态后端 (state backend) : 负责管理本地状态的存储方式, 位置

Flink 的状态后端有两类 :

  • 哈希表状态后端 (HashMapStateBackend) : 状态放在内存
  • 内嵌 RocksDB 状态后端 (EmbeddedRocksDBStateBackend) : 状态放在 RocksDB 数据库

哈希表状态后端 :

  • 实现 : 将状态当作对象 (objects) , 保存在 Taskmanager 的 JVM 堆上
  • 优点 : 内存计算,读写速度很快
  • 缺点 : 状态的大小受集群可用内存的限制 , 当状态随时间增长,会耗尽内存

RocksDB 状态后端 :

  • 实现 : 异步存储到 TaskManager 的本地目录
  • 优点 : 硬盘存储 , 适合海量状态的存储
  • 缺点 : 读写性能比哈希表慢些

配置

flink-conf.yaml :

  • 全局有效
# hashmap: HashMapStateBackend
# rocksdb: EmbeddedRocksDBStateBackend
# 默认状态后端
state.backend: hashmap

# 检查点和元数据写入目录
state.checkpoints.dir: hdfs://hadoop102:8020/flink/checkpoints

单作业 :

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

env.setStateBackend(new HashMapStateBackend());

// EmbeddedRocksDBStateBackend
// env.setStateBackend(new EmbeddedRocksDBStateBackend());

idae 本地启动 , 用 RocksDB 依赖 :

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-statebackend-rocksdb</artifactId>
    <version>${flink.version}</version>
</dependency>