news 2026/4/16 7:21:57

【论文自动阅读】See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demo

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demo

ViVLA:单视频演示驱动的视觉-语言-动作机器人操控模型解析

快速了解部分

基础信息(英文):

  1. 题目:See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demonstrations
  2. 时间年月:2025年12月
  3. 机构名:Beijing Institute of Technology、LimX Dynamics
  4. 3个英文关键词:One-Shot Visual Imitation Learning、Vision Language Action Models、Unseen Task Generalization
  5. 1句话通俗总结本文内容:本文提出ViVLA模型,让机器人通过观察单个专家演示视频(如人类操作视频),就能快速学习并执行新的操控任务,同时解决了跨设备适配和数据稀缺等问题,在真实场景中表现优异。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 模型能力局限:现有视觉-语言模型(VLM)多聚焦于语义级视频理解,难以识别视频中细粒度的操控动作,无法从专家演示中提取精准的操作知识。
  2. 动作表征差异:视频数据普遍缺乏动作标注,且专家(如人类)与机器人的动作空间不统一,导致知识难以从演示迁移到机器人。
  3. 动作建模缺陷:传统自回归动作预测易产生“捷径学习”(依赖历史真实动作而非视频内容),且推理时需逐token生成,延迟较高。
  4. 数据稀缺问题:机器人学习领域缺乏大量“专家-机器人”配对数据,难以支撑通用模型训练。
  5. 泛化能力不足:现有视觉-语言-动作(VLA)模型难以适应训练分布外的新任务,而人类仅通过单次观察就能掌握新技能。

核心方法:关键技术、模型或研究设计(简要)

  1. 双阶段模型架构:先通过“带动作中心循环一致性的 latent 动作学习”构建统一动作空间,再训练ViVLA模型实现单视频演示学习。
  2. latent 动作tokenizer:从视觉观察中提取动作表征,结合循环一致性约束,统一专家与机器人的动作空间,解决跨设备适配问题。
  3. 时空掩码策略:对演示视频的时间和空间维度随机掩码,迫使模型通过全局理解预测动作,同时降低计算成本。
  4. 并行解码机制:输入空动作嵌入,一次性生成所有动作token,避免捷径学习,提升推理效率。
  5. 大规模数据生成 pipeline:从人类视频中提取交互信息,结合3D高斯 splatting 生成机器人演示数据,构建含892,911个“专家-机器人”样本的数据集。

深入了解部分

相比前人创新在哪里

  1. 单视频演示学习能力:首次实现机器人仅通过1个专家视频(含跨设备、人类视频)就能学习新任务,无需额外训练或微调,突破现有VLA模型泛化局限。
  2. 统一动作空间构建:提出“动作中心循环一致性(A3C)”,让latent动作tokenizer同时学习专家视频和机器人轨迹,解决动作标注缺失和跨设备动作空间差异问题,语义一致性和设备适配性优于Genie等前人方法。
  3. 高效动作建模:用并行解码替代自回归建模,既避免依赖历史动作的“捷径学习”,又将推理效率大幅提升(无需逐token生成);时空掩码进一步强化模型对视频全局的理解。
  4. 大规模数据生成:创新视频驱动的“专家-机器人”配对数据生成流程,从易获取的人类视频中合成机器人演示,结合开源数据集构建超89万样本的数据集,解决数据稀缺痛点,且支持真实场景迁移。
  5. 跨模态信息融合:引入“时间定位任务”(将机器人观察插入专家视频并定位时序位置),增强视频与图像的跨模态特征交互,提升动作预测精准度。

解决方法/算法的通俗解释,以及整体流程

通俗解释
  1. latent动作学习:给动作“编通用密码”
    就像不同语言(如人类动作、机器人动作)需要统一翻译器,latent动作tokenizer就是“动作翻译器”:它观察专家(如人类)操作视频和机器人动作轨迹,提取动作的“核心特征密码(latent动作)”。同时通过“循环一致性”验证:用A的“动作密码”生成B的动作画面,再从画面反推密码,确保密码在不同设备间通用,解决“人类手势”和“机器人关节动作”无法直接适配的问题。

  2. ViVLA训练:让机器人“看一遍就会”
    训练时,模型同时接收三个信息:①带时空掩码的专家视频(故意遮部分画面,逼模型抓关键动作)、②机器人当前观察画面、③任务语言指令(如“把碗放好”)。通过并行解码,一次性预测出专家视频中的动作序列和机器人接下来要做的动作,就像人类看一遍教程后,结合自己看到的场景,立刻知道下一步怎么做。

  3. 数据生成:“复刻”人类动作给机器人
    从人类操作视频中提取手部和物体的位置(如“拿杯子时手的轨迹”),用3D技术构建虚拟场景,让机器人在虚拟场景中“复刻”人类动作,生成机器人的观察和动作数据。再将人类视频与机器人数据配对,形成“专家-机器人”训练样本,解决真实机器人数据难收集的问题。

整体流程
  1. 阶段1:训练latent动作tokenizer
  • 输入:专家视频帧、机器人观察帧
  • 过程:用编码器提取帧特征,经时空Transformer生成latent动作,结合循环一致性约束(生成画面反推动作)和判别器(确保生成画面真实)优化,得到能统一专家与机器人动作的“翻译器”。
  • 输出:统一的latent动作空间(动作“通用密码”)。
  1. 阶段2:训练ViVLA模型
  • 输入:带时空掩码的专家视频、机器人观察、语言指令
  • 过程:①VLM(基于Qwen2.5-VL)处理多模态输入;②并行解码预测专家视频的latent动作和机器人后续动作;③用动作解码器将预测的latent动作转为机器人可执行的连续动作;④引入时间定位任务增强跨模态融合。
  • 输出:能单视频演示学习的ViVLA模型。
  1. 测试/部署:机器人“实战应用”
  • 输入:1个新任务的专家视频(如人类叠积木)、机器人实时观察、任务指令
  • 输出:机器人连续动作,完成新任务;跨设备场景(如专家是UR机器人,执行是Franka机器人)或真实人类视频场景均适用。

基于前人的哪些方法

  1. 视觉-语言-动作(VLA)模型基础:借鉴RT-2的动作离散化思路、OpenVLA的大规模机器人数据训练方法,以及π₀的“VLM+动作专家”架构,但突破它们“依赖训练分布内任务”的局限,加入单视频演示学习能力。
  2. 单样本模仿学习(OSIL):延续Duan等人提出的“单演示+当前观察”的学习框架,改进AWDA的“路径点预测”思路,用latent动作替代手工设计的运动原语,提升通用性;参考MAML的元学习思想,但无需任务级微调,实现更高效的跨任务迁移。
  3. latent动作表征:基于VQ-VAE的离散表征方法(将连续动作转为离散token),改进Genie、LAPA等前人的latent动作学习,加入循环一致性约束,解决跨设备动作空间统一问题;UniVLA的“任务中心latent动作”思路,但强化了动作的语义一致性和真实场景适配性。
  4. 数据增强与3D重建:借鉴RoboSplat的3D高斯splatting场景重建技术,用于生成机器人演示的虚拟场景;参考MimicGen的“从人类演示合成机器人数据”思路,但优化交互定位(手部/物体姿态估计)和物理一致性(如抓取稳定性优化),提升数据质量。
  5. Transformer与多模态融合:采用DINOv2提取视觉特征,基于Qwen2.5-VL的VLM架构实现视觉-语言融合,时空Transformer用于建模动作的时序和空间关联,延续了Vision Transformer在多模态任务中的优势。

实验设置、数据、评估方式

实验设置
  1. 实验目标:验证ViVLA在“ unseen任务学习”“跨设备迁移”“人类视频迁移”三大场景的性能。
  2. 基准数据集
    • 主要测试集:LIBERO基准(130个语言驱动操控任务,分4个子集:Spatial(空间变化)、Object(物体变化)、Goal(目标变化)、Long(长时任务)),每个子集8个训练任务、2个unseen测试任务。
    • 真实场景测试:12个真实世界任务(6个seen、6个unseen,如“翻转积木”“擦托盘”“关篮子”),用Franka 7自由度机械臂执行。
  3. 对比方法
    • VLA模型:OpenVLA(开源SOTA)、UniVLA(跨设备latent动作);
    • 单样本模仿学习:AWDA(路径点预测)、Diffusion Policy(扩散模型动作预测);
    • 消融对比:无latent动作预测、自回归建模、无时空掩码等变体。
  4. 跨设备实验:专家为UR机械臂视频,执行器为Franka机械臂;人类视频实验:专家为人类操作视频,执行器为Franka机械臂。
实验数据
  1. 数据集构成:总892,911个“专家-机器人”配对样本,来源包括:
    • 自制Human2Robot数据集:7,421个人类视频(覆盖100+任务),通过3D高斯splatting生成89,736个人类-机器人配对样本;
    • 开源数据集:Fractal(87,212)、Bridge(60,064)、Droid(49,933)、Language Table(442,226)等,按任务指令语义相似性(Sentence-BERT余弦相似度>0.9)配对,共803,175样本。
  2. 数据特征:覆盖单臂操控、物体交互(抓取、放置、搅拌等),包含多视角、不同光照和场景外观的增强样本,支持真实场景迁移。
评估方式
  1. 量化指标:任务成功率(如机械臂完成“叠积木”的次数/总尝试次数),对比不同方法在seen(训练过的任务)和unseen(新任务)上的性能差异。
  2. 跨场景评估
    • 同设备unseen任务:LIBERO基准4个子集的成功率;
    • 跨设备任务:UR机器人演示→Franka机器人执行的成功率;
    • 人类视频迁移:人类演示→Franka机器人执行的真实场景成功率;
    • 鲁棒性测试:改变物体数量、空间位置、相机视角、光照,评估成功率变化。
  3. 消融实验:逐一移除关键组件(如循环一致性、时空掩码、并行解码),测试性能下降幅度,验证各组件必要性。
  4. 定性分析:可视化机器人动作轨迹、latent动作空间分布(验证跨设备统一性),展示真实场景任务执行过程(如“擦托盘”“关篮子”)。

提到的同类工作

  1. 视觉-语言-动作(VLA)模型:RT-2(首提VLA架构,动作离散化)、OpenVLA(基于Prismatic7B,大规模OXE数据集训练)、π₀(结合PaliGemma VLM与动作专家,生成连续动作)、UniVLA(任务中心latent动作,跨设备学习)、SpatialVLA(空间表征优化)、Interleave-VLA(图文指令 interleaving)。
  2. 单样本模仿学习(OSIL):Duan等人(首提OSIL,软注意力框架)、Finn等人(MAML元学习用于OSIL)、T-OSVI(Transformer+自监督逆动力学损失)、AWDA(属性路径点+数据增强)、OSVI-WM(世界模型生成轨迹)、CrossFormer(跨4种动作空间共训练)。
  3. 跨设备学习:早期方法(手动对齐动作空间)、CrossFormer(无约束观察/动作空间)、ATM(视频预训练轨迹生成)、LAPA(无监督latent动作学习)、Genie(生成式交互环境,latent动作)、Mirage(2D图像修复实现跨机器人迁移)、RoboSplat(3D高斯splatting用于数据增强)。
  4. 数据增强与生成:MimicGen(分解人类演示生成机器人数据)、Mirage(机器人图像修复)、VISTA(新视角合成)、Rovi-aug(跨设备图像增强)、RoboSplat(3D场景编辑)、Franka Emika机器人相关数据集(真实机械臂数据)。

和本文相关性最高的3个文献

  1. OpenVLA(arXiv:2406.09246)
  • 相关性:当前开源VLA模型的SOTA,基于Prismatic7B和OXE大规模数据集训练,聚焦机器人操控任务,但泛化局限于训练分布内任务。本文ViVLA以OpenVLA为核心对比基准,在unseen任务(LIBERO基准)上实现30%+性能提升,突破其泛化能力局限,且提出的单视频演示学习是对OpenVLA架构的关键扩展。
  • 关联点:均基于VLM构建VLA模型,均使用大规模机器人数据训练,核心目标均为提升机器人操控的通用性;本文在动作建模(并行解码)、跨设备适配(A3C)、数据生成(人类视频合成)上改进OpenVLA的不足。
  1. AWDA(arXiv:2302.04856)
  • 相关性:单样本视觉模仿学习的代表性方法,通过预测属性路径点+手工运动原语实现OSIL,是本文在OSIL领域的核心对比对象。ViVLA在相同LIBERO基准和真实场景中,unseen任务成功率远超AWDA(如LIBERO-Object子集,ViVLA 74% vs AWDA 50%),且无需手工设计运动原语,依赖latent动作和并行解码实现更通用的学习。
  • 关联点:均以“单视频演示+当前观察”为输入,目标均为跨任务泛化;本文解决了AWDA的“手工原语局限”和“泛化能力弱”问题,通过统一动作空间和高效建模提升性能。
  1. UniVLA(arXiv:2505.06111)
  • 相关性:近期跨设备VLA模型,提出“任务中心latent动作”解决跨设备动作空间差异,无需动作标注,与本文核心技术(latent动作学习、跨设备迁移)高度重合。本文ViVLA在latent动作学习中加入“循环一致性”,语义一致性和跨设备统一性优于UniVLA,且实现UniVLA不具备的“单视频演示学习”能力,在LIBERO unseen任务上性能提升35%+。
  • 关联点:均聚焦VLA模型的跨设备泛化,均采用latent动作表征解决动作标注缺失;本文在动作空间统一(A3C)、学习效率(单视频演示)、数据规模(89万样本)上超越UniVLA,是对其latent动作思路的关键优化。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/7 6:27:34

Flink学习笔记:如何做容错

现在我们已经了解了 Flink 的状态如何定义和使用,那 Flink 是如何做容错的呢?今天我们一起来了解一下。 先来回答问题, Flink 是通过状态快照来做容错的,在 Flink 中状态快照分为 Checkpoint 和 Savepoint 两种。 Checkpoint Chec…

作者头像 李华
网站建设 2026/4/15 14:21:02

vue基于springboot的社区健身服务_yob3w0op_

目录 具体实现截图项目介绍论文大纲核心代码部分展示项目运行指导结论源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作 具体实现截图 本系统(程序源码数据库调试部署讲解)同时还支持java、ThinkPHP、Node.js、Spring…

作者头像 李华
网站建设 2026/4/6 21:03:10

题解:AT_abc436_f

题面 Starry Landscape Photo 问题描述 在 AtCoder 行星上看到的夜空中,有 NNN 颗星星,这些星星从东到西排成一条直线。从东方数起的第 iii 颗星(1≤i≤N1 \le i \le N1≤i≤N)是这些星星中第 BiB _ iBi​ 亮的。 Takahashi 决…

作者头像 李华
网站建设 2026/4/10 22:20:19

每天一个网络知识:什么是堆叠?

在企业网络、数据中心或学校机房中,我们常常会看到多个交换机整齐排列在机柜里。随着网络规模增加,设备数量越来越多,如何让这些交换机更高效地协同工作、简化管理、提高可靠性? 其中一个非常重要的技术就是 “堆叠(S…

作者头像 李华
网站建设 2026/4/16 1:42:56

Django WiFi文件分享

项目介绍 在日常工作和生活中,我们经常需要在电脑和手机之间传输文件。传统的传输方式要么需要数据线连接,要么需要借助第三方应用,操作繁琐且不够高效。今天,我将介绍一个基于Django开发的WiFi文件分享应用,它可以让你通过电脑选择本地文件夹,生成访问二维码,然后通过…

作者头像 李华
网站建设 2026/4/16 1:40:56

《高压电气连接器必备指南》

高压电气连接器对于工作电压超过 60V 的电路以及汽车和工业应用中的关键组件至关重要。它们促进大电流的传输——特别是在电动汽车中——连接电池组、电机控制器和充电器等关键部件。高压电气连接器中使用的材料以下是在高压连接器开发和使用中常用的关键材料:导电材…

作者头像 李华