ResWM：用于视觉强化学习的残差-动作世界模型-编程阁

26年3月来自UCSD和TAMU的论文“ResWM: Residual-Action World Model for Visual RL”。

从原始视觉观测中学习预测性世界模型是强化学习（RL）的核心挑战，尤其是在机器人和连续控制领域。传统的基于模型的强化学习框架直接将未来预测与绝对动作挂钩，这使得优化不稳定：最优动作分布依赖于任务，事先未知，并且常常导致振荡或低效的控制。为了解决这个问题，引入残差-动作世界模型（ResWM），这是一个将控制变量从绝对动作重新表述为残差动作（相对于前一步的增量调整）的新框架。这种设计符合现实世界控制的固有平滑性，缩小有效搜索空间，并稳定长时域规划。为了进一步增强表示，提出一种观测差分编码器，它显式地对相邻帧之间的变化进行建模，从而产生与残差动作自然耦合的紧凑潜动力学。ResWM 以最小的修改和无需额外超参的方式集成到 Dreamer 风格的潜动力学模型中。想象展开和策略优化均在残差动作空间中进行，从而实现更平滑的探索、更低的控制方差和更可靠的规划。在DeepMind控制套件上的实证结果表明，ResWM在样本效率、渐近收益和控制平滑度方面均取得持续的提升，显著优于Dreamer和TD-MPC等强大的基线模型。除了性能提升之外，ResWM还能生成更稳定、更节能的动作轨迹，这对于部署在真实环境中的机器人系统至关重要。这些发现表明，残差动作建模为将强化学习算法的进步与机器人技术的实际需求相结合提供了一个简单而强大的原理。

从高维视觉观测中学习世界模型是强化学习（RL）的核心挑战之一[1-9]，它需要协同协调表征学习、动力学预测和策略优化[10-16]。与基于状态的范式（低维输入能够透明地揭示底层系统动力学）不同，视觉强化学习面临着多方面的复杂性，尤其是在机器人领域，智体需要在不断变化的环境中执行长时程任务[17-19]。尽管诸如SAC[20]和PPO[21]等无模型方法取得令人瞩目的成就，但它们固有的样本效率低下严重限制它们在现实世界场景中的可行性，因为在现实世界中，数据采集成本高昂、资源有限或充满风险。基于模型的强化学习（MBRL）[17, 22]作为一种很有前景的解决方案应运而生，它通过构建内部世界模型，利用富有想象力的模拟来促进高效的规划和策略优化[23, 24]。然而，传统的将动作嵌入这些模型的方式已成为一个关键瓶颈，阻碍基于模型强化学习（MBRL）潜力的充分发挥。

主流的世界模型直接将潜动力学性建立在绝对动作之上，这种看似直观的选择实际上却引入了次优的归纳偏差，并产生了深远的影响[25-29]。首先，这种设置将策略学习视为一个高方差难题，而最优绝对动作的任务特定非平稳分布更使问题雪上加霜。此外，它还经常导致振荡或不稳定的控制轨迹，从而削弱规划的有效性，并在物理实现中引入安全隐患。这些缺陷凸显世界模型的算法框架与具身智体实现平滑、弹性控制的必要性之间存在着深刻的脱节。

本文倡导这样一种观点：连续控制固有的平滑性超越单纯的期望，演变为一个亟待利用的基础原则。其洞见围绕着连续动作之间的残差变化展开——这一量比其绝对值更易于预测和处理。基于此，提出残差-动作世界模型（ResWM），它将控制变量从绝对动作重新定义为残差动作。这种重新定义在动作空间中嵌入一个稳健的时间平滑先验，通过对增量式改进而非直接指令进行建模，从根本上降低学习的复杂性。如此一来，ResWM 与物理动力学的连续性相协调，为扩展视野规划提供坚实的基础，并促进本质上稳定且节能的控制信号产生。

为了将控制信号锚定在最显著的感知信息之上，用一种观测差分编码器（ODL）来补充残差动作范式。与独立编码静态帧的传统方法不同，ODL 精心提炼相邻观测值之间的差异，从而提取其中蕴含的动力学信息 [30–34]。这产生一个紧凑的、动态感知的潜表示，该表示与残余动作的预测无缝衔接，有效地过滤掉静态冗余信息，突出对智体自适应调整至关重要的时间变化。通过优先考虑这些差异性线索，ODL 使模型能够更敏锐地关注动作引起的变化，从而增强其因果推理能力。

ResWM 经过精心设计，可以轻松集成到现有的 Dreamer 式架构中，只需进行极少的修改，并且无需任何新的超参数。想象驱动的规划和策略优化完全在残余动作域内展开，将探索转化为流畅的局部扰动，而不是波动性大、方差高的探索。这种范式转变不仅增强学习稳定性和样本效率，而且还产生明显更平滑、更节能的动作轨迹——这些都是机器人系统在现实世界环境中安全集成的不可或缺的属性。

该方法论开创性地对潜变量世界模型中的动作和观察表征进行原则性的重构，挑战传统的绝对且时间独立的动作建模范式。从物理系统和生物运动控制的固有连续性[56, 57]中汲取灵感，提出一个基于两项突破性原则的全新框架：(1) 将控制变量重新定义为残差动作，从而嵌入一个鲁棒的时间平滑性先验，进而将动作空间中混沌的全局搜索转化为优雅的局部优化；(2) 将该控制信号与观察差异的显式编码相结合，构建一个高度动态感知的潜空间，从而捕捉环境演化的本质。这一创新性的综合最终形成残差-动作世界模型（ResWM），该框架不仅将理论上的优雅与实际的有效性相结合，而且还在视觉强化学习（RL）中实现前所未有的稳定性和样本效率。

预备知识：潜动力学模型

将视觉控制问题建模为部分可观测马尔可夫决策过程 (POMDP) [58]，其形式化定义如下：(O, A, P, R, γ)。在每个离散时间步 t，智体接收一个高维视觉观测值 t ∈ O，并执行一个动作 a_t ∈ A。随后，环境根据转移动力学 P 转移到一个新的未观测真实状态，智体获得一个标量奖励 r_t = R(s_t, a_t)。智体的总体目标是学习一个策略 𝜋 (𝑎_𝑡 | 𝑜 ≤ 𝑡 )，以最大化预期折扣收益 E[sum(𝛾^𝑡^ 𝑟_𝑡)]，其中 𝛾 ∈ [0,1) 是折扣因子。

基于模型的强化学习智体通过从交互历史 D = {(𝑜_𝑡, 𝑎_𝑡, 𝑟_𝑡)} [59, 60] 中学习生成世界模型来解决这个棘手的高维问题。该模型通常可以分解为几个关键组件：

• 表示模型（编码器）h_𝜃 : 𝑜_𝑡 → 𝑠_𝑡 ，它将高维观测值映射到一个紧凑的马尔可夫潜状态空间。
• 转移模型（动力学）𝑔_𝜙(𝑠_𝑡+1 | 𝑠_𝑡, 𝑎_𝑡)，它完全在潜空间中预测环境的前向演化。
• 奖励预测器𝑟_𝜓(𝑟_𝑡 | 𝑠_𝑡, 𝑎_𝑡)，它估计即时任务奖励，以辅助离线规划或策略优化[61]。

该范式的一个根本挑战在于如何选择动作𝑎_𝑡的表示。传统世界模型[36]假设时刻𝑡的最优动作分布与𝑎_𝑡−1无关，这忽略动作分布的非平稳性以及执行的物理约束。这通常会导致高频动作抖动和优化不稳定——而提出的残差公式正是为了规避这些问题而设计的。

残差动作策略作为平滑性先验

核心假设是，直接预测绝对动作 𝑎_𝑡 对于连续控制任务而言本质上是一个不适定问题。最优物理轨迹很少由不相交的独立控制信号组成；相反，它们需要平滑、连续的过渡。为了无缝地整合这种归纳偏差，引入一种重参数化技术：该策略预测相对于先前动作 𝑎_𝑡 −1 的增量调整 𝛿𝑎_𝑡，从而有效地将决策锚定在时间连续性上。最终向环境发出的动作是通过复合变换产生的：

𝑎_𝑡 = tanh 𝑎_𝑡−1 + 𝛿𝑎_𝑡 ，其中 𝛿𝑎_𝑡 ∼𝜋_𝜃(· | 𝑧_𝑡, 𝑎_𝑡−1).

这种简洁的公式为策略网络引入强大的时间平滑性先验。通过将控制输出限制为微分项，将优化空间从全局动作空间 A 上的广泛、无约束搜索重新定向到以 𝑎_𝑡 −1 为中心的局部流形内观测差分编码器 (ODL)。传统的帧堆叠 [62] 隐式地对速度进行建模，但通常会受到视觉混叠和高度冗余的影响。而 ODL 则通过显式地关注时间差分来重新定义表征学习。这基于这样一个洞见：最优残差 𝛿𝑎_𝑡 主要由连续观测之间的差异变化驱动，而不是静态的视觉快照。通过一个复杂的映射 Φ_ODL 来形式化这一点：

𝑧_𝑡 = Φ_ODL(𝑜_𝑡,𝑜_𝑡−1) = LNFC(𝑓(𝑜_𝑡)−𝑓 (𝑜_𝑡−1)) ,

其中 𝑓 和 𝑓 ′ 分别表示独立的或孪生卷积神经网络 (CNN) 编码器，FC 表示全连接层，LN 表示用于表征稳定性的层归一化 [63]。

这种架构创新实现双重目标：(1) 它作为一个精确的时间滤波器，从静态的干扰背景中提取出动态的、与任务相关的元素（例如，移动的物体或摆动的钟摆），从而减轻像素级冗余； (2) 它构建一个动力学-觉察的潜表征 𝑧_𝑡，该表征本质上与残差动作 𝛿𝑎_𝑡 相契合。通过将 ODL 与残差策略相结合，在感知（观察变化）和控制（通过变化采取行动）之间建立一种共生关系，从而提升模型在视觉复杂、非平稳环境中的预测能力。

基于残差动作的潜动力学

为了构建一个能够原生理解动作空间的世界模型，将框架集成到循环状态空间模型 (RSSM) [64] 中。关键在于，转移函数直接以残差动作 𝛿𝑎_𝑡 为条件，而不是以绝对动作为条件：

𝑠_𝑡+1 ∼𝑔_𝜙(𝑠_𝑡+1 | 𝑠_𝑡, 𝛿𝑎_𝑡),

其中 𝑠_𝑡 表示循环潜状态的确定性成分和随机性成分。完整的生成模型包含以下组件，这些组件在残差-动作范式下协调一致：

• 转移模型：𝑠_𝑡+1 ∼𝑔_𝜙(𝑠_𝑡+1 | 𝑠_𝑡, 𝛿𝑎_𝑡)
• 观测模型：𝑜_𝑡 ∼ 𝑝_𝜓 (𝑜_𝑡 | 𝑠_𝑡 )
• 奖励模型：𝑟_𝑡 ∼ 𝑟_𝜓(𝑟_𝑡 | 𝑠_𝑡, 𝛿𝑎_𝑡)

这种统一的结构，保证用于策略学习的“想象”轨迹是使用由策略优化的完全相同控制变量（𝛿𝑎）生成的。这避免学习的动力学与策略的行为分布之间出现累积误差和分布偏移，从而显著提高长期预测的准确性。

想象力、策略优化和正则化

ResWM 中的策略学习利用基于想象力的潜空间展开。从回放缓冲区采样得到的潜状态 s_t 出发，Actor-Critic 算法利用冻结动力学模型模拟时域为 H 的轨迹：

sˆ_k+1 ∼ 𝑔_𝜙(· | sˆ_k, 𝛿𝑎ˆ_k), 𝛿𝑎ˆ_k ∼ 𝜋_𝜃(· | 𝑧ˆ_k, 𝑎ˆ_k−1)

随后，优化策略 𝜋ˆ_𝜃 和价值函数 𝑉ˆ_𝜉，以最大化这些模拟路径上的预期 𝜆 收益 [58]。这种无导数规划方法无需环境交互即可实现高效的信用分配。

为了保留残差动作的优势，在actor的目标函数中加入两个针对性的正则化机制。首先，Kullback-Leibler (KL) 散度惩罚将预测的残差分布引导至均值为零的高斯先验分布 N(0, 𝜎^2^ 𝐼)。这起到信息瓶颈的作用 [65]，抑制过度且不稳定的偏差，并鼓励进行简约的轨迹调整。其次，可选的能量惩罚 L_Δ𝑎 = 𝜆_Δ ||𝛿𝑎_𝑡||^2^_2 明确地限制控制力度，使优化后的策略更适合资源受限的机器人应用，因为在这些应用中，激进的控制反而会造成不利影响。

总训练目标

整个框架——包括视觉编码器、世界模型和Actor- Critic网络——进行并行端到端训练。这种协同优化至关重要，因为学习的潜表征质量直接决定用于策略改进的设想推广有效性。最小化一个综合联合目标函数 L_total，该函数基于从情景回放缓冲区 D 中动态采样的序列批次进行评估：

L_total = E_ 𝜏∼D [L_model (𝜏) + 𝜆_actor L_actor (𝜏) + 𝜆_value L_critic(𝜏) + L_reg (𝜏)]

在此公式中，L_model 包含标准的变分自编码器 (VAE) 证据下界 (ELBO) [66]。具体而言，它包括图像重建损失以确保视觉保真度，奖励预测损失将潜空间与特定任务的效用联系起来，以及用于潜动态的 KL 平衡损失。KL 平衡机制在世界模型中尤为重要；它对先验网络和后验网络应用不同的缩放因子，防止动态先验在训练初期坍塌成训练效果不佳的表示。

此外，L_actor 和 L_critic 代表从想象的展开 𝜆 回报中导出的标准 actor-critic 损失。具体来说，actor 通过在可微分动力学模型中解析地传播梯度来优化，以最大化想象轨迹的期望值；而 critic 则通过时间差分 (TD) 学习进行更新，以准确预测这些长期的 𝜆 回报。最后，L_reg 整合上述关于残差动作的先验信息，作为信息瓶颈，它强制执行所需的时间平滑性并缓解灾难性的动作抖动。

如图所示残差-动作世界模型（ResWM）的架构如下：（1）观测差分编码器（ODL）：处理连续帧 𝑜_𝑡 −1 和 𝑜_𝑡 以提取动力学增量，生成动力学-觉察潜向量 𝑧_𝑡。（2）残差策略：actor网络基于 𝑧_𝑡 和前一个动作 𝑎_𝑡 −1 预测残差更新 𝛿𝑎_𝑡，以确保时间平滑性。（3）潜动力学：循环状态空间模型（RSSM）根据这些残差动作展开未来潜状态 𝑠_𝑡 +1，从而为actor-critic优化提供稳定、长时域的想象。

为了全面评估所提出的残差-动作世界模型（ResWM），设计实证研究，旨在回答三个主要研究问题（RQ）：

• (RQ1) 性能和样本效率：与最先进的视觉强化学习基线相比，残差动作和动态感知表示的融合是否能带来更高的样本效率和渐近性能？

• (RQ2) 动作平滑性和能量效率：ResWM 能否显著降低高频动作抖动，并生成更平滑、更节能的控制轨迹？这对于实际物理部署至关重要。

• (RQ3) 消融和组件分析：各个组件——特别是观测差分编码器（ODL）和残差策略公式——对框架的整体鲁棒性和表示学习能力贡献有多大？

主要评估平台是 DeepMind 控制套件 (DMControl) [68]，它提供一系列复杂的生物力学和机器人环境，这些环境的特点是复杂的接触动力学、高维视觉输入和稀疏的奖励景观。此外，为了评估 ODL 在减轻视觉干扰方面的具体作用，在具有动态非静态背景的修改环境中进行补充实验。

为了全面评估所提出的残差动作世界模型（ResWM），采用DeepMind Control Suite（DMControl）[76]和Atari基准测试[77]，前者代表连续控制任务，后者则在视觉复杂性和稀疏奖励方面提供了多样化的挑战。值得注意的是，ResWM只需进行少量架构修改，无需引入任何额外的超参数，即可无缝集成到现有的世界模型框架中，从而确保了比较的公平性。在DMControl上，首先评估六个常用任务，并进一步纳入五个更具挑战性的任务以检验其鲁棒性。在 Atari 平台上，评估涵盖十款经典游戏，其中智体的目标是最大化游戏得分，从而测试 ResWM 在处理高维像素输入和长时程任务方面的泛化能力[78]。

ResWM：用于视觉强化学习的残差-动作世界模型

预备知识：潜动力学模型

残差动作策略作为平滑性先验

基于残差动作的潜动力学

想象力、策略优化和正则化

总训练目标

为什么越来越多的人不想做程序员工作了？

打破语言壁垒：Translumo实时屏幕翻译工具使用指南

Vue 2 与 Vue 3 的区别

Idiap研究院：让语音识别AI学会聆听对话历史，压缩音频记忆

cursor-free-vip：突破Cursor Pro使用限制的技术解决方案与实践指南

macOS沙盒体验OpenClaw：千问3.5-9B云端镜像快速试用