news 2026/4/16 10:58:36

【论文自动阅读】LaST₀: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision–Language–Action Model

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】LaST₀: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision–Language–Action Model

快速了解部分

基础信息(英文):

  1. 题目: LaST₀: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision–Language–Action Model
  2. 时间年月: 2026年1月
  3. 机构名: Peking University, Beijing Innovation Center of Humanoid Robotics, CUHK, Simplexity Robotics
  4. 3个英文关键词: Vision-Language-Action (VLA), Latent Chain-of-Thought (CoT), Robotic Manipulation

1句话通俗总结本文干了什么事情

本文提出了一种名为 LaST₀ 的机器人模型,它通过在“潜意识”空间里快速预演未来的画面、形状和动作,让机器人既能像人类一样思考(理解复杂的物理环境),又能像机器一样快速反应(实时控制)。

研究痛点:现有研究不足 / 要解决的具体问题

现有的 VLA 模型通常使用显式的思维链(如生成文字或图像)来辅助决策,这带来了两个主要问题:

  1. 推理延迟高:生成语言或图像的过程计算量大,导致无法满足机器人实时控制的高频率要求。
  2. 表达瓶颈:仅靠语言空间的推理难以准确捕捉难以言喻的物理属性(如几何结构、触觉动力学),限制了机器人对物理世界的精细理解。

核心方法:关键技术、模型或研究设计(简要)

论文提出了LaST₀(潜空间时空思维链)框架:

  1. 潜空间推理:不生成具体的文字或图像,而是生成紧凑的、连续的“潜码(Latent Tokens)”来代表未来的视觉、3D结构和机器人状态。
  2. 双系统架构:采用类似“快慢双系统”的设计,一个“慢思考专家”低频生成未来的潜意识推理轨迹,一个“快行动专家”高频生成具体动作,两者通过共享注意力机制协作。

深入了解部分

相比前人创新在哪里

  1. 从显式到隐式:不同于前人用显式的语言或图像做思维链,LaST₀ 使用难以言喻但信息更丰富的“潜空间”来存储推理过程,大幅降低了计算开销。
  2. 双速协同架构:创新性地在一个模型中集成了“慢思考(推理)”和“快行动(控制)”两个专家,通过异步频率(如1:4)运行,既保证了深度思考,又实现了实时响应。
  3. 多模态物理潜空间:构建的潜空间不仅包含2D视觉,还融合了3D点云几何信息和机器人本体感知,更全面地理解物理交互。

解决方法/算法的通俗解释

想象一个机器人在做菜。传统方法是它每一步都要在脑子里“默念”一大段话或者“画”一张图,这太慢了。
LaST₀ 的方法是,机器人有一个“直觉/潜意识”(潜空间)。它会快速在潜意识里预演接下来几秒锅、铲子和手的位置变化(时空推理)。这个过程像电光火石一样快,不需要转化成具体的画面。
然后,它的“手”(行动专家)根据这个潜意识的指引,配合眼睛看到的实时画面,做出流畅的动作。一个负责想“大局”,一个负责“动手”,分工合作。

解决方法的具体做法

  1. 构建潜空间:利用预训练编码器(SigLIP, Uni3D)将未来的RGB图像、3D点云和机器人状态压缩成紧凑的潜码,作为“思维”的目标。
  2. 双专家模型(MoT)
    • 推理专家(慢):低频运行(如每4步一次),通过自回归预测未来的潜码,构建时空推理轨迹。
    • 行动专家(快):高频运行(如每步都运行),结合当前视觉和推理专家提供的潜码,通过流匹配(Flow Matching)生成动作。
  3. KV Cache 机制:推理专家生成的潜码缓存在内存中,行动专家可以直接读取,避免了重复计算,保证了推理速度(15.4 Hz)。

基于前人的哪些方法

  1. 基础模型:基于Janus-Pro(一个视觉-语言模型)和DeepSeek-LLM 1B进行初始化。
  2. 架构设计:借鉴了Mixture-of-Transformers (MoT)的设计思想,用于实现双专家系统。
  3. 动作生成:采用了Flow Matching策略来生成连续动作。
  4. 预训练数据:利用了 Open-X-Embodiment, DROID, ROBOMIND 等大规模机器人数据集。

实验设置、数据、评估方式

  1. 数据
    • 预训练:使用了超过40万条轨迹的数据,包括 Open-X-Embodiment, DROID, ROBOMIND 等。
    • 微调/测试:在10个仿真任务(RLBench环境,如关箱、扫地)和6个真实世界任务(单臂擦白板、盖章、放盘子、铲蛋;双臂爆米花、开锅盖)上进行评估。
  2. 评估方式
    • 成功率(Success Rate):任务完成的百分比。
    • 推理速度:每秒推理次数(Hz),在单张 RTX 4090 上测试。
    • 对比基准:与 Open-VLA, π0.5, CogACT, SpatialVLA, CoT-VLA, HybridVLA 等 SOTA 模型对比。

提到的同类工作

  • Open-VLA: 开源的视觉-语言-动作模型。
  • π₀.σ (pi-zero): 强调开放世界泛化的 VLA 模型。
  • CogACT: 结合认知和行动的 VLA 模型。
  • SpatialVLA: 侧重于空间表示的 VLA 模型。
  • CoT-VLA: 通过显式生成未来视觉观察来进行思维链推理的 VLA 模型(LaST₀ 的主要对比对象之一)。
  • HybridVLA: 结合扩散模型和自回归模型的协作框架。

和本文相关性最高的3个文献

  1. **CoT-VLA **: 这是本文最直接的对比对象。CoT-VLA 使用显式的未来图像预测作为思维链,而 LaST₀ 正是为了克服其推理慢和表达受限的缺点,改用潜空间推理。
  2. **Janus-Pro **: 本文模型的预训练基础(Backbone),LaST₀ 是在此基础上通过 MoT 架构改造而来的。
  3. **π0.5 **: 代表了当前 SOTA 的高性能 VLA 模型(流匹配方法),本文在实验部分多次将其作为主要基准。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 10:19:18

清华智源研究成果登《Science》:DrugCLIP用AI驱动百万倍速药物筛选,开启全基因组靶向时代

在计算生物学领域,有一个被追逐了数十年的“圣杯”——化学基因组学。其核心愿景是实现对全基因组蛋白质靶点的全覆盖,为每一个潜在的生命密码配上一把精准的“药物钥匙”。人类基因组编码约 20000 种蛋白质,其中 90% 与疾病密切相关&#xf…

作者头像 李华
网站建设 2026/4/16 10:22:00

Springboot少儿编程管理系统760av(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。

系统程序文件列表 项目功能:课程分类,家长,课程信息,购买课程,完整课程,学生信息,通知公告 开题报告内容 一、选题背景与意义 (一)选题背景 政策驱动: 国家《新一代人工智能发展规划》明确要求“在中小学阶段设置人工智能相关…

作者头像 李华
网站建设 2026/4/11 19:41:51

Springboot上门护理服务预约系统3hx0u(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。

系统程序文件列表项目功能:患者,护理人员,服务预约,任务变更,危险上报,护理报告,服务评价开题报告内容一、选题背景与意义(一)选题背景随着全球人口老龄化加速(中国60岁以上人口占比达21.1%)、慢性病患者增多&#xff…

作者头像 李华
网站建设 2026/4/16 10:16:57

扫地机器人路径规划问题,算法是全覆盖内螺旋算法,使用MATLAB实现,下列为运行图过程截图

扫地机器人路径规划问题,算法是全覆盖内螺旋算法,使用MATLAB实现,下列为运行图过程截图 这段代码是一个扫地机器人的仿真程序。程序的主要功能是模拟机器人在一个房间内清扫的过程。下面我将对程序进行详细的分析。首先,程序创建了…

作者头像 李华