news 2026/4/16 17:19:45

【论文自动阅读】

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】

快速了解部分

基础信息(英文):

1.题目: A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning
2.时间: 2025.09
3.机构: Shanghai AI Lab
4.3个英文关键词: Vision-Language-Action (VLA), Real-World Reinforcement Learning (RL), Dense Reward

1句话通俗总结本文干了什么事情

本文提出了一种名为VLAC的模型,它能让机器人通过“看”和“理解”任务描述来给自己打分(奖励),从而在真实世界中通过自我尝试和犯错来学习如何完成各种复杂动作,而不需要人类为每个任务单独设计打分规则。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 奖励函数稀疏且手工设计困难:真实世界强化学习通常依赖稀疏的最终成功/失败信号,或者需要为每个特定任务手工设计复杂的奖励函数(Reward Shaping),这既昂贵又缺乏通用性。
  2. 探索效率低与泛化能力弱:现有的VLA模型主要依赖模仿学习,难以处理未见过的任务或环境变化;而现有的奖励模型往往无法很好地泛化到新任务,且难以区分失败或停滞的轨迹。
  3. 缺乏统一架构:现有的方法通常将“策略”(决定怎么做)和“批评家”(评价做得怎么样)分开,导致集成困难。

核心方法:关键技术、模型或研究设计(简要)

提出了VLAC (Vision-Language-Action-Critic)模型:

  1. 统一模型:基于InternVL构建,同一个模型既负责生成动作(Actor),也负责评估任务进度给出奖励(Critic)。
  2. 成对进度理解(Pair-wise Progress Understanding):模型接收两张图片(前后状态)和语言指令,输出一个进度差值(Delta)作为密集奖励信号。
  3. 真实世界RL框架:结合PPO算法,利用VLAC提供的密集奖励进行策略优化,并引入分级的人机交互机制(如离线演示回放)来加速学习。

深入了解部分

相比前人创新在哪里

  1. 一体化设计:首次在一个自回归架构中统一了VLA策略和进度批评家,无需针对不同任务设计特定的奖励模型。
  2. 强大的泛化能力:通过大规模异构数据(包含人类视频和机器人数据)训练,实现了零样本(Zero-shot)和上下文学习(In-context learning)能力,能直接迁移到未见过的任务和环境中。
  3. 密集内在奖励:利用成对图像对比生成密集的进度奖励,解决了真实世界中缺乏传感器反馈和奖励稀疏的问题。

解决方法/算法的通俗解释

想象一个学开车的机器人,通常需要教练(奖励函数)时刻打分。VLAC模型相当于给机器人装了一个“懂任务的AI教练”。

  • 怎么看:AI教练同时看两张照片,一张是机器人操作前的样子,一张是操作后的样子。
  • 怎么评:AI教练结合“把碗拿起来”这个指令,判断第二张照片是不是比第一张更接近目标。如果是,就给正分(奖励);如果是乱动,就给负分(惩罚)。
  • 怎么做:机器人根据这个分数不断调整动作,分数越高动作越好,直到学会任务。

解决方法的具体做法

  1. 数据构建
    • 将视频切分为成对的图像帧(Pair-wise),计算时间差作为进度标签。
    • 混合了大规模人类视频数据(Ego4D等)、公开机器人数据(Bridge, Droid等)和VQA数据。
    • 构造了负样本(如倒退的动作、语义不匹配的描述)来增强模型对失败的识别。
  2. 模型训练
    • Critic部分:训练模型预测两帧图像间的进度差值(Delta Progress)和任务完成标志(Done Signal)。
    • Actor部分:训练模型输出具体的机械臂控制指令(Delta Pose)。
  3. RL部署
    • 在真实环境中,VLAC模型交替生成奖励和动作。
    • 使用PPO算法更新策略。
    • 引入“人机回路”:包括离线演示回放、人工重置到难点位置探索(Return and Explore)、人工引导探索(Human Guided Explore)。

基于前人的哪些方法

  1. 基础模型:基于InternVL(一个先进的视觉语言模型)进行构建。
  2. RL算法:采用了PPO (Proximal Policy Optimization)算法进行策略优化。
  3. 奖励机制:借鉴了时间对比学习(Time-Contrastive)的思想,通过成对样本学习进度。

实验设置、数据、评估方式、结论

  • 数据:混合了4000+小时的人类数据、1200小时的公开机器人数据和自采数据。
  • 设置:在4个真实世界的操作任务中测试(舀米转移、铺 mats、端碗放置、桌面清扫),使用AGILE PiPER机械臂。
  • 评估
    • Critic:使用VOC(Value-Order Correlation)评估预测进度与实际时间顺序的相关性。
    • Actor:使用任务成功率(Success Rate)。
  • 结论
    • VLAC在未见过的任务上表现出强泛化能力(One-shot)。
    • 在真实世界RL中,成功率从基线的约30%提升至90%(200个回合内)。
    • 引入人工干预后,样本效率提高50%,最终可达到100%成功率。

提到的同类工作

  • RT-1 / RT-2(Brohan et al.): 谷歌的机器人Transformer模型,通常依赖模仿学习。
  • OpenVLA(Kim et al.): 开源的VLA模型。
  • VIP / GVL(Ma et al.): 基于视觉表示学习的奖励方法(如对比学习)。
  • ReBoot / SERL(Hu et al., Luo et al.): 强调样本效率和人机回路的机器人RL框架。

和本文相关性最高的3个文献

  1. InternVL(被作为基础模型架构,是本文模型的根基)。
  2. VIP (Value-Implicit Pre-training)(Ma et al.): 本文在评估部分多次对比了此类基于视觉表示学习的奖励模型,作为主要的竞争或参考基准。
  3. SERL / ReBoot(Luo et al., Hu et al.): 本文在“人机回路”和“真实世界RL框架”设计上参考了这些工作,特别是关于如何利用人类干预加速学习的部分。

我的

主要核心点是把critic集成到一个模型,而且GT label是自动的,Reward不是人工打标签。是按照任务进度来,给2帧,如果正向进展那就是Reward,如果反向了,那就是惩罚。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 0:53:22

大模型本地部署,小号的vLLM来了!

文章介绍轻量级大模型推理引擎Nano-vLLM,这是代码简洁(约1200行Python)的vLLM替代实现。它提供快速离线推理能力,API与vLLM类似,在小模型测试中性能甚至优于vLLM。文章详解安装方法、模型下载途径(包括mode…

作者头像 李华
网站建设 2026/4/16 12:23:44

【课程设计/毕业设计】基于python大数据的睡在地震数据可视化分析系统基于python的灾情数据可视化系统【附源码、数据库、万字文档】

java毕业设计-基于springboot的(源码LW部署文档全bao远程调试代码讲解等) 博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、…

作者头像 李华
网站建设 2026/4/15 13:45:05

【AI应用开发工程师】-分享Java 转 AI正确思路

☕ Java 转 AI:别翻书了,翻开你的 ChatGPT! 中午和同事吃饭,聊起一个经典话题:“Java 程序员想转 AI,该看什么书?” 我抿了一口咖啡,缓缓放下杯子:“说实话,看…

作者头像 李华
网站建设 2026/4/16 12:27:26

2026项目管理工具推荐:7款免费版能做什么、卡在哪里

本文将深入对比7款免费项目管理工具:PingCode、Worktile、Jira Software、Trello、ClickUp、Notion、Asana。一、免费项目管理工具能做什么 很多团队找“免费项目管理工具”,一开始其实只想解决三件事:任务别丢、进度看得见、协作别靠催。可真…

作者头像 李华
网站建设 2026/4/16 15:30:06

大数据毕设选题推荐:基于django的电子产品电商平台主数据管理系统基于django的电子产品电商平台主数据管理系统【附源码、mysql、文档、调试+代码讲解+全bao等】

java毕业设计-基于springboot的(源码LW部署文档全bao远程调试代码讲解等) 博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、…

作者头像 李华
网站建设 2026/4/16 8:48:47

第 471 场周赛Q1——3712. 出现次数能被 K 整除的元素总和

题目链接:3712. 出现次数能被 K 整除的元素总和(简单) 算法原理: 解法:哈希表 3ms击败54.15% 时间复杂度O(N) 思路很简单,先利用哈希表把数组中出现的元素对应的次数统计出来,然后遍历判断其次数…

作者头像 李华