ViVLA:单视频演示驱动的视觉-语言-动作机器人操控模型解析
快速了解部分
基础信息(英文):
- 题目:See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demonstrations
- 时间年月:2025年12月
- 机构名:Beijing Institute of Technology、LimX Dynamics
- 3个英文关键词:One-Shot Visual Imitation Learning、Vision Language Action Models、Unseen Task Generalization
- 1句话通俗总结本文内容:本文提出ViVLA模型,让机器人通过观察单个专家演示视频(如人类操作视频),就能快速学习并执行新的操控任务,同时解决了跨设备适配和数据稀缺等问题,在真实场景中表现优异。
研究痛点:现有研究不足 / 要解决的具体问题
- 模型能力局限:现有视觉-语言模型(VLM)多聚焦于语义级视频理解,难以识别视频中细粒度的操控动作,无法从专家演示中提取精准的操作知识。
- 动作表征差异:视频数据普遍缺乏动作标注,且专家(如人类)与机器人的动作空间不统一,导致知识难以从演示迁移到机器人。
- 动作建模缺陷:传统自回归动作预测易产生“捷径学习”(依赖历史真实动作而非视频内容),且推理时需逐token生成,延迟较高。
- 数据稀缺问题:机器人学习领域缺乏大量“专家-机器人”配对数据,难以支撑通用模型训练。
- 泛化能力不足:现有视觉-语言-动作(VLA)模型难以适应训练分布外的新任务,而人类仅通过单次观察就能掌握新技能。
核心方法:关键技术、模型或研究设计(简要)
- 双阶段模型架构:先通过“带动作中心循环一致性的 latent 动作学习”构建统一动作空间,再训练ViVLA模型实现单视频演示学习。
- latent 动作tokenizer:从视觉观察中提取动作表征,结合循环一致性约束,统一专家与机器人的动作空间,解决跨设备适配问题。
- 时空掩码策略:对演示视频的时间和空间维度随机掩码,迫使模型通过全局理解预测动作,同时降低计算成本。
- 并行解码机制:输入空动作嵌入,一次性生成所有动作token,避免捷径学习,提升推理效率。
- 大规模数据生成 pipeline:从人类视频中提取交互信息,结合3D高斯 splatting 生成机器人演示数据,构建含892,911个“专家-机器人”样本的数据集。
深入了解部分
相比前人创新在哪里
- 单视频演示学习能力:首次实现机器人仅通过1个专家视频(含跨设备、人类视频)就能学习新任务,无需额外训练或微调,突破现有VLA模型泛化局限。
- 统一动作空间构建:提出“动作中心循环一致性(A3C)”,让latent动作tokenizer同时学习专家视频和机器人轨迹,解决动作标注缺失和跨设备动作空间差异问题,语义一致性和设备适配性优于Genie等前人方法。
- 高效动作建模:用并行解码替代自回归建模,既避免依赖历史动作的“捷径学习”,又将推理效率大幅提升(无需逐token生成);时空掩码进一步强化模型对视频全局的理解。
- 大规模数据生成:创新视频驱动的“专家-机器人”配对数据生成流程,从易获取的人类视频中合成机器人演示,结合开源数据集构建超89万样本的数据集,解决数据稀缺痛点,且支持真实场景迁移。
- 跨模态信息融合:引入“时间定位任务”(将机器人观察插入专家视频并定位时序位置),增强视频与图像的跨模态特征交互,提升动作预测精准度。
解决方法/算法的通俗解释,以及整体流程
通俗解释
latent动作学习:给动作“编通用密码”
就像不同语言(如人类动作、机器人动作)需要统一翻译器,latent动作tokenizer就是“动作翻译器”:它观察专家(如人类)操作视频和机器人动作轨迹,提取动作的“核心特征密码(latent动作)”。同时通过“循环一致性”验证:用A的“动作密码”生成B的动作画面,再从画面反推密码,确保密码在不同设备间通用,解决“人类手势”和“机器人关节动作”无法直接适配的问题。ViVLA训练:让机器人“看一遍就会”
训练时,模型同时接收三个信息:①带时空掩码的专家视频(故意遮部分画面,逼模型抓关键动作)、②机器人当前观察画面、③任务语言指令(如“把碗放好”)。通过并行解码,一次性预测出专家视频中的动作序列和机器人接下来要做的动作,就像人类看一遍教程后,结合自己看到的场景,立刻知道下一步怎么做。数据生成:“复刻”人类动作给机器人
从人类操作视频中提取手部和物体的位置(如“拿杯子时手的轨迹”),用3D技术构建虚拟场景,让机器人在虚拟场景中“复刻”人类动作,生成机器人的观察和动作数据。再将人类视频与机器人数据配对,形成“专家-机器人”训练样本,解决真实机器人数据难收集的问题。
整体流程
- 阶段1:训练latent动作tokenizer
- 输入:专家视频帧、机器人观察帧
- 过程:用编码器提取帧特征,经时空Transformer生成latent动作,结合循环一致性约束(生成画面反推动作)和判别器(确保生成画面真实)优化,得到能统一专家与机器人动作的“翻译器”。
- 输出:统一的latent动作空间(动作“通用密码”)。
- 阶段2:训练ViVLA模型
- 输入:带时空掩码的专家视频、机器人观察、语言指令
- 过程:①VLM(基于Qwen2.5-VL)处理多模态输入;②并行解码预测专家视频的latent动作和机器人后续动作;③用动作解码器将预测的latent动作转为机器人可执行的连续动作;④引入时间定位任务增强跨模态融合。
- 输出:能单视频演示学习的ViVLA模型。
- 测试/部署:机器人“实战应用”
- 输入:1个新任务的专家视频(如人类叠积木)、机器人实时观察、任务指令
- 输出:机器人连续动作,完成新任务;跨设备场景(如专家是UR机器人,执行是Franka机器人)或真实人类视频场景均适用。
基于前人的哪些方法
- 视觉-语言-动作(VLA)模型基础:借鉴RT-2的动作离散化思路、OpenVLA的大规模机器人数据训练方法,以及π₀的“VLM+动作专家”架构,但突破它们“依赖训练分布内任务”的局限,加入单视频演示学习能力。
- 单样本模仿学习(OSIL):延续Duan等人提出的“单演示+当前观察”的学习框架,改进AWDA的“路径点预测”思路,用latent动作替代手工设计的运动原语,提升通用性;参考MAML的元学习思想,但无需任务级微调,实现更高效的跨任务迁移。
- latent动作表征:基于VQ-VAE的离散表征方法(将连续动作转为离散token),改进Genie、LAPA等前人的latent动作学习,加入循环一致性约束,解决跨设备动作空间统一问题;UniVLA的“任务中心latent动作”思路,但强化了动作的语义一致性和真实场景适配性。
- 数据增强与3D重建:借鉴RoboSplat的3D高斯splatting场景重建技术,用于生成机器人演示的虚拟场景;参考MimicGen的“从人类演示合成机器人数据”思路,但优化交互定位(手部/物体姿态估计)和物理一致性(如抓取稳定性优化),提升数据质量。
- Transformer与多模态融合:采用DINOv2提取视觉特征,基于Qwen2.5-VL的VLM架构实现视觉-语言融合,时空Transformer用于建模动作的时序和空间关联,延续了Vision Transformer在多模态任务中的优势。
实验设置、数据、评估方式
实验设置
- 实验目标:验证ViVLA在“ unseen任务学习”“跨设备迁移”“人类视频迁移”三大场景的性能。
- 基准数据集:
- 主要测试集:LIBERO基准(130个语言驱动操控任务,分4个子集:Spatial(空间变化)、Object(物体变化)、Goal(目标变化)、Long(长时任务)),每个子集8个训练任务、2个unseen测试任务。
- 真实场景测试:12个真实世界任务(6个seen、6个unseen,如“翻转积木”“擦托盘”“关篮子”),用Franka 7自由度机械臂执行。
- 对比方法:
- VLA模型:OpenVLA(开源SOTA)、UniVLA(跨设备latent动作);
- 单样本模仿学习:AWDA(路径点预测)、Diffusion Policy(扩散模型动作预测);
- 消融对比:无latent动作预测、自回归建模、无时空掩码等变体。
- 跨设备实验:专家为UR机械臂视频,执行器为Franka机械臂;人类视频实验:专家为人类操作视频,执行器为Franka机械臂。
实验数据
- 数据集构成:总892,911个“专家-机器人”配对样本,来源包括:
- 自制Human2Robot数据集:7,421个人类视频(覆盖100+任务),通过3D高斯splatting生成89,736个人类-机器人配对样本;
- 开源数据集:Fractal(87,212)、Bridge(60,064)、Droid(49,933)、Language Table(442,226)等,按任务指令语义相似性(Sentence-BERT余弦相似度>0.9)配对,共803,175样本。
- 数据特征:覆盖单臂操控、物体交互(抓取、放置、搅拌等),包含多视角、不同光照和场景外观的增强样本,支持真实场景迁移。
评估方式
- 量化指标:任务成功率(如机械臂完成“叠积木”的次数/总尝试次数),对比不同方法在seen(训练过的任务)和unseen(新任务)上的性能差异。
- 跨场景评估:
- 同设备unseen任务:LIBERO基准4个子集的成功率;
- 跨设备任务:UR机器人演示→Franka机器人执行的成功率;
- 人类视频迁移:人类演示→Franka机器人执行的真实场景成功率;
- 鲁棒性测试:改变物体数量、空间位置、相机视角、光照,评估成功率变化。
- 消融实验:逐一移除关键组件(如循环一致性、时空掩码、并行解码),测试性能下降幅度,验证各组件必要性。
- 定性分析:可视化机器人动作轨迹、latent动作空间分布(验证跨设备统一性),展示真实场景任务执行过程(如“擦托盘”“关篮子”)。
提到的同类工作
- 视觉-语言-动作(VLA)模型:RT-2(首提VLA架构,动作离散化)、OpenVLA(基于Prismatic7B,大规模OXE数据集训练)、π₀(结合PaliGemma VLM与动作专家,生成连续动作)、UniVLA(任务中心latent动作,跨设备学习)、SpatialVLA(空间表征优化)、Interleave-VLA(图文指令 interleaving)。
- 单样本模仿学习(OSIL):Duan等人(首提OSIL,软注意力框架)、Finn等人(MAML元学习用于OSIL)、T-OSVI(Transformer+自监督逆动力学损失)、AWDA(属性路径点+数据增强)、OSVI-WM(世界模型生成轨迹)、CrossFormer(跨4种动作空间共训练)。
- 跨设备学习:早期方法(手动对齐动作空间)、CrossFormer(无约束观察/动作空间)、ATM(视频预训练轨迹生成)、LAPA(无监督latent动作学习)、Genie(生成式交互环境,latent动作)、Mirage(2D图像修复实现跨机器人迁移)、RoboSplat(3D高斯splatting用于数据增强)。
- 数据增强与生成:MimicGen(分解人类演示生成机器人数据)、Mirage(机器人图像修复)、VISTA(新视角合成)、Rovi-aug(跨设备图像增强)、RoboSplat(3D场景编辑)、Franka Emika机器人相关数据集(真实机械臂数据)。
和本文相关性最高的3个文献
- OpenVLA(arXiv:2406.09246)
- 相关性:当前开源VLA模型的SOTA,基于Prismatic7B和OXE大规模数据集训练,聚焦机器人操控任务,但泛化局限于训练分布内任务。本文ViVLA以OpenVLA为核心对比基准,在unseen任务(LIBERO基准)上实现30%+性能提升,突破其泛化能力局限,且提出的单视频演示学习是对OpenVLA架构的关键扩展。
- 关联点:均基于VLM构建VLA模型,均使用大规模机器人数据训练,核心目标均为提升机器人操控的通用性;本文在动作建模(并行解码)、跨设备适配(A3C)、数据生成(人类视频合成)上改进OpenVLA的不足。
- AWDA(arXiv:2302.04856)
- 相关性:单样本视觉模仿学习的代表性方法,通过预测属性路径点+手工运动原语实现OSIL,是本文在OSIL领域的核心对比对象。ViVLA在相同LIBERO基准和真实场景中,unseen任务成功率远超AWDA(如LIBERO-Object子集,ViVLA 74% vs AWDA 50%),且无需手工设计运动原语,依赖latent动作和并行解码实现更通用的学习。
- 关联点:均以“单视频演示+当前观察”为输入,目标均为跨任务泛化;本文解决了AWDA的“手工原语局限”和“泛化能力弱”问题,通过统一动作空间和高效建模提升性能。
- UniVLA(arXiv:2505.06111)
- 相关性:近期跨设备VLA模型,提出“任务中心latent动作”解决跨设备动作空间差异,无需动作标注,与本文核心技术(latent动作学习、跨设备迁移)高度重合。本文ViVLA在latent动作学习中加入“循环一致性”,语义一致性和跨设备统一性优于UniVLA,且实现UniVLA不具备的“单视频演示学习”能力,在LIBERO unseen任务上性能提升35%+。
- 关联点:均聚焦VLA模型的跨设备泛化,均采用latent动作表征解决动作标注缺失;本文在动作空间统一(A3C)、学习效率(单视频演示)、数据规模(89万样本)上超越UniVLA,是对其latent动作思路的关键优化。