26年3月来自南京大学和加拿大蒙特利尔大学魁北克AI研究所的论文“Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models”。
视觉-语言-动作(VLA)模型在机器人控制方面展现出强大的泛化能力,但利用强化学习(RL)对其进行微调却受到现实世界交互的高成本和安全风险的限制。在交互式世界模型中训练VLA模型可以避免这些问题,但也引入一些挑战,包括像素级世界建模、多视图一致性以及稀疏奖励下的误差累积。基于大型多模态模型和基于模型的强化学习的最新进展,其提出VLA-MBPO,一个用于解决VLA微调中这些问题的实用框架。该方法有三个关键的设计选择:(i)采用统一多模态模型(UMM)进行数据高效的世界建模;(ii)采用交错视图解码机制来强制执行多视图一致性;(iii)采用分块级分支展开来缓解误差累积。
本文提出一种基于实用世界模型的强化学习框架,旨在明确应对上述挑战。为了实现高效且可泛化的像素空间世界建模,用预训练的统一多模态模型(UMM)作为世界模型的骨干(Deng et al., 2025a; Cui et al., 2025; Sun et al., 2025),从而在无需昂贵的视频展开的情况下,实现视觉动态和奖励的联合预测。为了支持精确控制所需的一致多视图生成,引入交错视图解码技术,该技术在保证跨视图一致性的同时,保留特定视图的细节。最后,为了缓解稀疏奖励下模型误差的累积,采用分块级分支展开(chunk-level branched rollout),以限制策略优化过程中的误差累积(Park et al., 2025)。这些组件共同构成一个针对VLA微调的、具有凝聚力的基于世界模型强化学习方法(VLA-MBPO),从而能够在有限的现实世界交互条件下实现有效的强化学习,如图1所示。
将基于模型的强化学习 (MBRL) 应用于 VLA 模型会面临诸多挑战,这些挑战源于像素级建模、多视图生成以及稀疏奖励下误差的累积。
VLA 世界建模的挑战
与依赖低维状态或潜在展开的传统基于模型的强化学习(MBRL)设置(Janner et al., 2019; Hafner et al., 2023; Hansen et al., 2024)不同,视觉-语言-动作系统(VLA)的世界模型需要满足以下条件:(i)高保真度的像素级生成,因为VLA通常以原始图像作为视觉感知的输入;(ii)一致的多视图生成,以实现细粒度控制;以及(iii)精确的语义理解能力,以进行奖励建模。然而,从头开始训练这种像素空间世界模型非常耗费数据,并且在离线环境下容易过拟合。
以往的研究通常分别微调独立的大型视频模型和视觉-语言模型,用于动态建模和奖励建模(Zhu et al., 2025)。虽然这种方法有效,但这种双模型设计引入复杂性和工程开销。相比之下,受近期研究进展(Deng et al., 2025a; Sun et al., 2025)的启发,采用统一多模态模型(UMM)作为一种简化的替代方案,能够在单个模型中联合预测未来的观测结果和奖励。此外,UMM无需生成中间帧即可直接对动态过程进行建模,因此与视频世界模型相比,其展开效率更高(如图所示)。然而,由于UMM最初并非针对VLA场景设计,因此需要进行额外的适配。
将UMM扩展到动作空间。基于UMM的世界模型通常基于视觉和语言模态(Sun et al., 2025),而VLA智体引入额外的底层动作模态。为了支持UMM处理底层动作输入,借鉴Goyal et al.(2025)的方法,将动作表示为整数token,即将连续的动作值离散化到一个固定范围内(例如[0,256]),并将其映射到UMM词汇表。 UMM的任务是基于文本动作块生成下一个观测值和奖励。该过程通过下一个观测值的条件概率s_t+k ∼ T_θ (·|s_t , a ̃_t )来形式化,其中a ̃_t表示一个k × d的token序列,k是块大小,d是动作维度数。此外,将块级奖励定义为r_θ(s_t+k,l) = sum(γi−1r(s_t+i, l)),其中γ是折扣因子,r(s_t+i, l)表示在任务指令l下,步骤t + i的奖励。该设计无需对架构或词汇表进行任何修改,保留了UMM的预训练能力。在实现中,采用Bagel(Deng,2025a)作为基础模型。
交错视图解码。精细操控通常需要对多个摄像机视角进行推理,因为单个视角不足以完整捕捉物体的几何形状、遮挡和接触动态。这给世界建模带来了额外的挑战:除了预测视觉上合理的未来观测结果外,世界模型还必须保持跨视角的一致性,以用于下游策略学习。直接将统一模型(UMM)扩展到多视角输入通常会导致视角特定的伪影,即使局部预测准确,这些伪影也会降低控制性能。为了应对这一挑战,提出一种交错视角解码策略,该策略显式地强制执行跨多个摄像机视角的一致性。在大多数VLA模型中,输入由头部视角(或俯视图)摄像机图像sh和手腕视角摄像机图像sw组成,形成组合输入s = [sh,sw]。其中,头部视角捕捉全局场景信息,而手腕视角提供精细但部分可观测的细节。为了对此进行建模,将状态转移分解为:
sh_t+k ∼ T_θ(·|sh_t , sw_t , a_t:t+k−1)
sw_t+k ∼ T_θ(·|sw_t ,sh_t+k)
经验表明,这种方法优于独立生成每个视图的方法,它能有效整合全局信息和细粒度信息,并保持视图之间的一致性。这种分解可以通过带有注意矩阵的 UMM 中交错解码轻松实现。
稀疏奖励下组合模型误差累积的挑战
误差累积是多模型强化学习(MBRL)中的一个根本性挑战,因为世界模型预测的不准确性会在长时间的展开过程中累积,并可能严重误导策略优化。在VLA设置中,操作任务中常见的稀疏奖励结构会进一步加剧这个问题,因为即使是微小的预测误差也可能导致截然不同的结果,甚至产生相反的奖励信号。这种误差放大使得简单的全时域展开策略变得不可靠。
为了缓解这个问题,采用分块级分支展开技术。该技术已应用于基于状态的简单任务(Park et al., 2025),但尚未在基于像素的VLA微调中得到验证。并非从初始状态s_0开始展开全时域轨迹,而是从离线数据集中的任意观测值开始,并采用更小的展开时域。此外,由于世界模型以数据块为单位运行,可以进一步将有效展开范围缩小 1/k 倍,其中 k 为数据块大小。通过结合这两种策略,大幅缩短了展开长度,从而提高策略优化的效率和稳定性。
VLA-MBPO:基于实用世界模型的 VLA 模型强化学习框架
提出 VLA-MBPO,这是一个基于实用世界模型的 VLA 模型强化学习框架,它集成了上述三个组件以促进 VLA 强化学习。算法包含三个阶段:1)使用 VLA 模型进行数据采集;2)使用采集的数据对世界模型进行微调;3)在世界模型中使用强化学习进行策略优化。对于策略优化,采用 Flow-Noise(Chen,2025a),它是 PPO 的一种简单变型,用于基于流匹配的策略学习。在强化学习过程中,向 VLA 模型添加基于 MLP 的价值头,以进行价值预测(Chen,2025a)。
该方法可以看作是离线模型强化学习(MBRL)的一个实例,但它与以往的离线MBRL方法在几个关键方面有所不同。首先,与使用保守正则化来缓解模型偏差的传统方法(Yu et al., 2020; Sun et al., 2023; Lin et al., 2025)不同,该方法省略了此类机制,因为经过微调的UMM-World模型已经达到了足够的精度,无需使用正则化。其次,与最近基于动作分块的离线MBRL方法(Park et al., 2025)不同,本文方法基于PPO框架,因此不依赖于拒绝采样和Q模型等额外设计,从而显著降低了系统复杂度。基于这两个优势,其方法在所有任务中都使用同一套超参数,这增强了其实用性,并简化了在实际场景中的部署。
算法总结如下伪代码:
世界模型评估
基准测试。在 LIBERO(Liu,2023)中的 Object 任务套件上进行评估。LIBERO 是一个操作基准测试,包含 10 个不同的任务,每个任务都有不同的对象实例。用每个任务 50 条轨迹的数据集进行训练,并在预留的测试集(每个任务 10 条轨迹)上报告评估结果。评估流程包括在 100 条预留的测试轨迹上展开 40 个步骤。报告头部和手腕视角的评估结果,以严格评估长期一致性。
基线模型。将模型与两个不同的基线模型进行定量比较:(1)Ctrl-World(Guo,2025),这是一个视频生成模型,它在动态合成方面表现出色,具有多视角一致性,但缺乏内在奖励预测的语义基础; (2) Qwen3-VL(Bai,2025),一种能够进行精确奖励推理但无法预测视觉动态的视觉学习模型。此外,为了验证模型设计,评估两种消融实验:1) 不使用交错视图解码(IVD),其中视图是并行生成的而非交错生成的,从而隔离解码策略对多视图一致性的影响。2) 不使用预训练(PT),其中 UMM-World 被随机初始化。从动态预测、推理速度和奖励预测三个角度对所有模型进行了定量评估。
仿真任务实验
基准测试。在 LIBERO 数据集(Liu,2023)上评估 VLA-MBPO。LIBERO 是一个广泛采用的基准测试数据集,包含四个任务套件:空间、物体、目标和长距离,旨在评估从视觉定位到长距离规划的各种能力。离线数据集通过收集每个任务的 50 个episodes 构建,其中行为策略通过 π0.5 和单次 SFT 获得。通过每个任务套件中所有 10 个任务的 50 个评估episodes的平均成功率来衡量性能。
基线。将 VLA-MBPO 与四个基线进行比较:(1)π0.5(SFT):在任何强化学习之前训练的 VLA 模型(π0.5);(2)BC(WM):基于世界模型生成的成功轨迹训练的 BC 基线;(3)在等效真实世界交互预算下训练的在线强化学习基线 πRL(Chen,2025a); (4) IDQL(Hansen-Estruch,2023):一种用于流匹配策略的离线无模型强化学习算法。
真实世界任务实验
从仿真过渡到物理世界会带来诸多挑战,包括复杂的非刚体动力学、传感器噪声和未建模的环在两个机器人平台上设计了五个真实世界任务。在双臂机器人 Arx-X5 上,a) 插拔电缆任务要求将电缆插入 3 毫米插座,精度达到亚厘米级;b) 折叠毛巾任务评估双臂对可变形物体的操作能力。在全身机器人 Galaxy-R1 上,c) 拾取杯子任务和 d) 插入笔任务评估在机器人姿态和相机视角受到干扰的情况下全身操作的能力;e) 擦拭板任务测试在部分可观测性条件下的移动全身控制能力。对于每项任务,通过人工远程操作收集专家演示数据,Arx-X5 任务收集约 50 条轨迹,Galaxy-R1 任务收集约 100 条轨迹,并对 π0.5 进行 SFT 训练。然后,用 π0.5 (SFT) 对每项任务收集 50 条轨迹,用于后续的 VLA-MBPO 训练。评估基于每项任务的 50 条轨迹进行:30 条已见过轨迹和 20 条未见过轨迹,其中未见过轨迹包含新的目标、背景和空间配置。