RL · Exploration | 使用时序距离构造 intrinsic reward，鼓励 agent 探索

论文标题：Episodic Novelty Through Temporal Distance.
ICLR 2025，8 8 6 5 poster。
arxiv：https://arxiv.org/abs/2501.15418
pdf：https://arxiv.org/pdf/2501.15418
html：https://arxiv.org/html/2501.15418
open review：https://openreview.net/forum?id=I7DeajDEx7

01 论文主要内容
02 行文逻辑

01 论文主要内容

论文概括：

这篇论文研究稀疏奖励环境下的探索问题，特别是在每次任务环境会变化的"情境 MDP"（Contextual Markov Decision Processes，CMDP，如随机生成的地图）中，如何让 agent 高效探索。
这篇论文设计了 ETD（Episodic Novelty Through Temporal Distance）方法，核心创新是提出 temporal distance（时序距离）作为状态新颖性的衡量标准，通过对比学习估计时序距离，并生成 intrinsic reward 驱动探索。

1.1 这篇论文关注什么，想解决什么任务

关注点：解决 CMDP（Contextual Markov Decision Processes，情境 MDP，如随机地图导航、机器人在随机场景中完成任务）中 稀疏奖励下探索效率低 的问题。
挑战：传统方法依赖全局的经验，但 CMDP 每次环境不同（如新地图），历史经验无法直接复用（详见下文的 1.2）。

1.2 先前方法一般怎么做，有什么问题

计数法（如记录访问次数）：在连续/大状态空间失效（每个状态都"独特"，无法判断新颖性）。
相似度法（如欧氏距离）：无法捕捉状态的动态关系（如迷宫中的两个点看似近，但实际需要绕远路才能到达）。

1.3 这篇论文的 motivation，它希望解决什么 gap

现有方法缺少对状态间动态关系的建模（例如："绕远路"和"直达"在欧氏距离上可能相同）。【待 check】
提出用时序距离（从状态 A 到 B 所需的平均步数）作为更本质的相似性度量，可跨环境泛化。

1.4 这篇论文的主要 method 是什么，算法流程是什么

如何学习 temporal distance

首先，定义几个概念：

从 x 开始时在时间步 k 达到状态 y 的概率：$p^\pi(s_k=y|s_0=x)$。
状态 x 到 y 的转换概率：$p^\pi_\gamma(s_f=y|s_0=x)=(1-\gamma)\sum_{k=0}^\infty \gamma^kp^\pi(s_k=y|s_0=x)$。这个值 ≤ 1。个人理解，$s_f$ 的意思是在 $s_0$ 之后的一个状态。
准度量（Quasimetric）的定义：满足非负性、同一性（d(x,x)=0）和三角不等式，但无需对称性（d(x,y)≠d(y,x)）。

然后，根据 (Myers et al., 2024)，我们定义 x 到 y 的 temporal distance 为：

\[d^\pi_\text{SD}(x,y)=\log\left(\frac{p^\pi_\gamma(s_f=y|s_0=y)}{p^\pi_\gamma(s_f=y|s_0=x)}\right)
\]

x 越难到达 y，分母越小，$d^\pi_\text{SD}(x,y)$ 就越大。

根据 (Myers et al., 2024)，这个定义是一个 Quasimetric，即使 MDP 是随机的。

然后，根据 (Ma & Collins, 2018; Poole et al., 2019)，我们用对比学习来学 $d^\pi_\text{SD}(x,y)$。

定义一个能量函数 $f(x,y)$，希望它对于两个互相容易到达的状态 x y 分配较大的值，而对于难以到达的状态分配较小的值。

我们用 InfoNCE loss 训练它：

\[\mathcal{L}_{\theta} = \sum_{i=1}^{B} \left[ \log \left( \frac{\exp f(x_i, y_i)}{\sum_{j=1}^{B} \exp f(x_j, y_j)} \right) + \log \left( \frac{\exp f(x_i, y_i)}{\sum_{j=1}^{B} \exp f(x_j, y_j)} \right) \right]
\]

其中，(x,y) 是从 $(x,y)\sim p^\pi_\gamma(s_f=y|s_0=x)p_s(x)$ 采样得到的，$p_s(x)$ 是 x 的边缘分布。

根据 (Ma & Collins, 2018; Poole et al., 2019)，可以使用能量函数 $f(x,y)$ 的唯一解来恢复 $d^\pi_\text{SD}(x,y)$。

根据 (Myers et al., 2024)，如果将 $f(x,y)$ 分解为一个 potential $c(y)$ 和一个 $d(x,y)$ 的差值，即 $f(x,y)=c(y)-d(x,y)$，那么可以直接取用 $d(x,y)=d^\pi_\text{SD}(x,y)$，这样就训练得到了时序距离。

在 ETD 里，$c(y)$ 是 MLP，而 $d(x,y)$ 是用非对称的 MRN 实现的。

使用 temporal distance 构造 intrinsic reward

定义 ETD 的 intrinsic reward：$b_\text{ETD}(s_t)=\min_{k\in[0,t]}d(s_k,s_t)$，即，希望最大化这一个 episode 里先前状态 $s_k$ 到这个状态 $s_t$ 的 temporal distance，希望去一些尽可能难到达的地方。特别的，ETD 最大化的是最小的 temporal distance，即离当前状态 $s_t$ 最近的 $s_k$，它们俩的 temporal distance。

具体算法

采样 context c，得到一个 CMDP；
while episode 没结束：
- 根据 s 采样 action a，得到 s'；
- 计算 ETD intrinsic reward：$b_{t+1}=\min_{k\in[0,t]}d(s_k,s_t)$；
- 得到总 reward：$r_{t+1} = r^e_{t+1} + \beta b_{t+1}$；
把这个 episode 存到 replay buffer 里；
从 replay buffer 里采一批。实际中，$x = s_t, y = s_{t+j}, j \sim\text{Geom}(1−\gamma)$ 即几何分布；
更新 temporal distance 的 loss function。
用刚刚采的新轨迹更新 PPO policy。

（个人思考，state 里显然应该包含当前 context 的信息，比如一个迷宫中的迷宫布局。不然，假设在上一个 episode 里 (0,0) (0,2) 很近，但这个 episode 里，两个点之间隔了一堵墙；如果 state 里只包含自己的坐标 (0,0)，而不包含这堵墙，那么完全没法学到“这一局的 (0,0) (0,2) 很远”这种信息）

1.5 实验结果怎么样

环境：MiniGrid 迷宫、像素游戏 Crafter、3D 导航 MiniWorld 等。
优势：
- 在 MiniGrid 里，ETD 比 NovelD 更好。
- 在带噪声的复杂迷宫中，ETD 比现有方法（NovelD、E3B 等）收敛速度快 2 倍。
- 在像素输入的高维环境（如 Crafter）中，ETD 的探索成功率提升 15-20%。
- 对状态噪声（如随机扰动）鲁棒，传统方法（如计数法）完全失效时 ETD 仍有效。

02 行文逻辑

这篇文章讲的主要故事：

在稀疏 reward 环境中，探索（exploration）面临挑战。而在 Contextual MDP 中，现有的 count-based 和 similarity-based 都存在问题；ETD 可以解决它们的问题。
ETD 通过使用 temporal distance 计算相似性和 intrinsic reward，从而解决它们的问题。temporal distance 使用对比学习进行学习。

1 intro 分析：

第一段：稀疏奖励的 RL 探索困难；虽然现有方法在 MDP 中有效，但现实世界通常是 CMDP。
第二段：为解决 CMDP 的探索问题，现有方法引入了 episodic bonuses，这些方法可以分为两类：count-based 和 similarity-based。count-based 方法在大状态空间中表现不佳，而 similarity-based 方法在相似性计算上存在不足，无法捕捉状态的新颖性。
第三段：这篇文章介绍了 ETD，鼓励 agent 探索与当前 episode 历史在时间上相距较远的状态。
- 关键创新在于使用 temporal distance，它测量在两个 state 之间转换的预期步数，可以作为相似性计算的稳健指标。
- 与现有方法不同，temporal distance 不受状态 representation 的影响，因此避免了 noisy-TV 问题，并且适用于 pixel-based 环境。

接下来的 2 background 简单介绍了 CMDP 和 intrinsic reward 的机制。

3 Limitations of Current Episodic Bonuses：

专门用一段分析了现有方法的 gap。
第一段：基于 episodic count 计算 novelty，会在大状态空间 / noisy state 下失效，因为每个状态都是新颖的。
第二段：基于 state similarity 计算 novelty 的方法，如 NGU 和 E3B，可能能解决这一问题。具体来说，可以通过估计状态间转换的难易程度来实现，例如 EC 和 DEIR。然而，这种方法计算的状态相似性往往不够准确，如图 2 所示。

4 method：

4.1 如何学习 temporal distance；
4.2 基于 temporal distance 计算 intrinsic reward；
4.3 介绍具体算法。

5 experiments：

5.1 介绍了 minigrid 的 setting 和实验结果，实验涵盖了 8 个 task。
5.2 介绍了带 noise 的 minigrid，把各种 baseline 都卡下去了。
5.3 是 ablation，比较了 ETD 和欧几里得距离、用 ETD 生成 intrinsic reward 的具体方法、ETD 时序距离的对称性 / 非对称性设计。
5.4 介绍了 Pixel-Based Crafter 和 MiniWorld Maze 的环境，并提供了（与少量 baseline 比较）的实验结果。