news 2026/4/16 12:30:04

【论文自动阅读】VLM4VLA: REVISITING VISION-LANGUAGE-MODELS IN VISION-LANGUAGE-ACTION MODELS

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】VLM4VLA: REVISITING VISION-LANGUAGE-MODELS IN VISION-LANGUAGE-ACTION MODELS

快速了解部分

基础信息(英文)

  1. 题目: VLM4VLA: REVISITING VISION-LANGUAGE-MODELS IN VISION-LANGUAGE-ACTION MODELS
  2. 时间年月: 2025年(根据参考文献推断,文中提及当前时间为2026年,该文为近期研究)
  3. 机构名: Institute for Interdisciplinary Information Sciences, Tsinghua University; Qwen Team, Alibaba Inc.
  4. 3个英文关键词: Vision-Language-Action (VLA); Vision-Language Models (VLM); Embodied AI

1句话通俗总结本文干了什么事情
本文建立了一个标准化的测试框架(VLM4VLA),用来搞清楚什么样的视觉语言大模型(VLM)底座最适合用来做机器人的大脑(VLA),以及为什么现有的VLM在控制机器人时表现不佳。

研究痛点:现有研究不足 / 要解决的具体问题
目前大家虽然都在用预训练的视觉语言模型(VLM)来做机器人动作模型(VLA),但很少有人系统性地研究:到底什么样的VLM底座能力能转化为机器人干活的能力?大家普遍假设VLM越强,机器人越强,但这其实是个误区。

核心方法:关键技术、模型或研究设计(简要)
提出了VLM4VLA管道:设计了一个极简的插件(仅增加<1%的参数),把各种通用的VLM模型转换成能控制机器人的VLA策略模型,从而在公平的条件下对比不同VLM底座的性能。

深入了解部分

相比前人创新在哪里

  1. 公平对比视角:以前的研究往往因为网络结构不同(如Diffusion模型 vs MLP)导致无法公平比较底座的好坏,本文用最简单的MLP头实现了跨架构的公平对比。
  2. 反直觉的发现:打破了“VLM通用能力越强,机器人表现越好”的迷思,发现VLM的视觉编码器是瓶颈,且专门针对具身任务微调VLM(如做视觉问答)并不一定能提高机器人控制性能。

解决方法/算法的通俗解释
想象你要教不同的人(VLM底座)学会看图做家务。

  • 以前的方法:给每个人配不同的复杂教学大纲(复杂的策略网络),导致分不清是人聪明还是大纲好。
  • 本文的方法:给所有人发一本完全一样的、最简单的操作手册(VLM4VLA插件),然后看谁学得快。这个手册只教他们如何把看到的画面和听到的指令翻译成具体的动作坐标。

解决方法的具体做法

  1. 插入动作查询Token:在VLM的输入序列最后加一个可学习的“动作查询标记”(Action Query Token)。
  2. MLP解码:取这个标记对应的输出特征,通过一个简单的两层MLP网络(多层感知机),直接预测机器人的动作(位置和状态)。
  3. 全参数微调:在训练时,不仅微调新加的MLP,也会微调VLM底座的所有参数(包括视觉和语言部分),以测试其真实潜力。

基于前人的哪些方法

  • 基于Vision-Language Models (VLMs)的预训练知识(如Qwen2.5-VL, Paligemma, Kosmos等)。
  • 借鉴了RT-2OpenVLA等将视觉语言模型用于机器人控制的思想,但简化了其复杂的策略头设计。

实验设置、数据、评估方式

  • 模型底座:测试了9种主流VLM(如Qwen系列、Paligemma、Kosmos-2等)。
  • 数据集:使用了3个基准数据集进行训练和评估:CALVIN(模拟桌面操作,测试泛化性)、SimplerEnv Bridge(真实数据训练,模拟环境测试)、Libero-Long(长程复杂任务)。
  • 评估方式:计算任务完成的成功率。对比了从零训练、冻结部分参数微调、全参数微调等多种情况。

提到的同类工作

  • OpenVLA:基于Llama-2的开源VLA模型。
  • pi0:基于Paligemma-1的流模型(Flow Model)。
  • ThinkAct:基于Qwen2.5VL-7B并结合强化学习的模型。
  • RT-2:早期的视觉语言动作模型。

和本文相关性最高的3个文献

  1. OpenVLA (Kim et al., 2024):本文将其作为主要的基准(Baseline)进行对比,且复现了其在部分环境下的结果。
  2. pi0 (Black et al., 2024):本文复现了该模型并与VLM4VLA框架进行对比,指出了其扩散模型带来的不稳定性。
  3. Qwen2.5-VL (Bai et al., 2025b):本文实验中使用的核心VLM底座之一,也是阿里巴巴团队的同系列工作。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/10 13:45:03

3D视觉AI入门实战:MiDaS模型快速体验指南

3D视觉AI入门实战&#xff1a;MiDaS模型快速体验指南 1. 引言&#xff1a;开启你的3D视觉之旅 1.1 单目深度估计的技术背景 在计算机视觉领域&#xff0c;从二维图像中理解三维空间结构一直是核心挑战之一。传统方法依赖双目立体视觉或多传感器融合&#xff08;如LiDAR&…

作者头像 李华
网站建设 2026/4/16 11:02:14

3D感知MiDaS实战:从图片到深度图生成全流程

3D感知MiDaS实战&#xff1a;从图片到深度图生成全流程 1. 引言&#xff1a;AI 单目深度估计的现实意义 在计算机视觉领域&#xff0c;三维空间感知一直是智能系统理解真实世界的关键能力。传统方法依赖双目摄像头或多传感器融合&#xff08;如LiDAR&#xff09;来获取深度信…

作者头像 李华
网站建设 2026/4/16 11:10:03

智能万能抠图Rembg:玩具产品去背景案例

智能万能抠图Rembg&#xff1a;玩具产品去背景案例 1. 引言 1.1 业务场景描述 在电商、广告设计和数字内容创作领域&#xff0c;图像去背景是一项高频且关键的预处理任务。尤其对于玩具类产品&#xff0c;其形态多样、材质复杂&#xff08;如反光塑料、毛绒表面、透明包装&a…

作者头像 李华
网站建设 2026/4/6 3:24:58

聊聊 Future 接口

一、背景介绍 在前几篇线程系列文章中&#xff0c;我们介绍了线程池的相关技术&#xff0c;任务执行类只需要实现Runnable接口&#xff0c;然后交给线程池&#xff0c;就可以轻松的实现异步执行多个任务的目标&#xff0c;提升程序的执行效率&#xff0c;比如如下异步执行任务…

作者头像 李华