【论文自动阅读】LaST₀: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision–Language

快速了解部分

基础信息（英文）：

题目: LaST₀: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision–Language–Action Model
时间年月: 2026年1月
机构名: Peking University, Beijing Innovation Center of Humanoid Robotics, CUHK, Simplexity Robotics
3个英文关键词: Vision-Language-Action (VLA), Latent Chain-of-Thought (CoT), Robotic Manipulation

1句话通俗总结本文干了什么事情

本文提出了一种名为 LaST₀ 的机器人模型，它通过在“潜意识”空间里快速预演未来的画面、形状和动作，让机器人既能像人类一样思考（理解复杂的物理环境），又能像机器一样快速反应（实时控制）。

研究痛点：现有研究不足 / 要解决的具体问题

现有的 VLA 模型通常使用显式的思维链（如生成文字或图像）来辅助决策，这带来了两个主要问题：

推理延迟高：生成语言或图像的过程计算量大，导致无法满足机器人实时控制的高频率要求。
表达瓶颈：仅靠语言空间的推理难以准确捕捉难以言喻的物理属性（如几何结构、触觉动力学），限制了机器人对物理世界的精细理解。

核心方法：关键技术、模型或研究设计（简要）

论文提出了LaST₀（潜空间时空思维链）框架：

潜空间推理：不生成具体的文字或图像，而是生成紧凑的、连续的“潜码（Latent Tokens）”来代表未来的视觉、3D结构和机器人状态。
双系统架构：采用类似“快慢双系统”的设计，一个“慢思考专家”低频生成未来的潜意识推理轨迹，一个“快行动专家”高频生成具体动作，两者通过共享注意力机制协作。

深入了解部分

相比前人创新在哪里

从显式到隐式：不同于前人用显式的语言或图像做思维链，LaST₀ 使用难以言喻但信息更丰富的“潜空间”来存储推理过程，大幅降低了计算开销。
双速协同架构：创新性地在一个模型中集成了“慢思考（推理）”和“快行动（控制）”两个专家，通过异步频率（如1:4）运行，既保证了深度思考，又实现了实时响应。
多模态物理潜空间：构建的潜空间不仅包含2D视觉，还融合了3D点云几何信息和机器人本体感知，更全面地理解物理交互。

解决方法/算法的通俗解释

想象一个机器人在做菜。传统方法是它每一步都要在脑子里“默念”一大段话或者“画”一张图，这太慢了。
LaST₀ 的方法是，机器人有一个“直觉/潜意识”（潜空间）。它会快速在潜意识里预演接下来几秒锅、铲子和手的位置变化（时空推理）。这个过程像电光火石一样快，不需要转化成具体的画面。
然后，它的“手”（行动专家）根据这个潜意识的指引，配合眼睛看到的实时画面，做出流畅的动作。一个负责想“大局”，一个负责“动手”，分工合作。

解决方法的具体做法

构建潜空间：利用预训练编码器（SigLIP, Uni3D）将未来的RGB图像、3D点云和机器人状态压缩成紧凑的潜码，作为“思维”的目标。
双专家模型（MoT）：
- 推理专家（慢）：低频运行（如每4步一次），通过自回归预测未来的潜码，构建时空推理轨迹。
- 行动专家（快）：高频运行（如每步都运行），结合当前视觉和推理专家提供的潜码，通过流匹配（Flow Matching）生成动作。
KV Cache 机制：推理专家生成的潜码缓存在内存中，行动专家可以直接读取，避免了重复计算，保证了推理速度（15.4 Hz）。

基于前人的哪些方法

基础模型：基于Janus-Pro（一个视觉-语言模型）和DeepSeek-LLM 1B进行初始化。
架构设计：借鉴了Mixture-of-Transformers (MoT)的设计思想，用于实现双专家系统。
动作生成：采用了Flow Matching策略来生成连续动作。
预训练数据：利用了 Open-X-Embodiment, DROID, ROBOMIND 等大规模机器人数据集。

实验设置、数据、评估方式

数据：
- 预训练：使用了超过40万条轨迹的数据，包括 Open-X-Embodiment, DROID, ROBOMIND 等。
- 微调/测试：在10个仿真任务（RLBench环境，如关箱、扫地）和6个真实世界任务（单臂擦白板、盖章、放盘子、铲蛋；双臂爆米花、开锅盖）上进行评估。
评估方式：
- 成功率（Success Rate）：任务完成的百分比。
- 推理速度：每秒推理次数（Hz），在单张 RTX 4090 上测试。
- 对比基准：与 Open-VLA, π0.5, CogACT, SpatialVLA, CoT-VLA, HybridVLA 等 SOTA 模型对比。

提到的同类工作

Open-VLA: 开源的视觉-语言-动作模型。
π₀.σ (pi-zero): 强调开放世界泛化的 VLA 模型。
CogACT: 结合认知和行动的 VLA 模型。
SpatialVLA: 侧重于空间表示的 VLA 模型。
CoT-VLA: 通过显式生成未来视觉观察来进行思维链推理的 VLA 模型（LaST₀ 的主要对比对象之一）。
HybridVLA: 结合扩散模型和自回归模型的协作框架。

和本文相关性最高的3个文献

**CoT-VLA **: 这是本文最直接的对比对象。CoT-VLA 使用显式的未来图像预测作为思维链，而 LaST₀ 正是为了克服其推理慢和表达受限的缺点，改用潜空间推理。
**Janus-Pro **: 本文模型的预训练基础（Backbone），LaST₀ 是在此基础上通过 MoT 架构改造而来的。
**π0.5 **: 代表了当前 SOTA 的高性能 VLA 模型（流匹配方法），本文在实验部分多次将其作为主要基准。

【论文自动阅读】LaST₀: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision–Language–Action Model

快速了解部分

基础信息（英文）：

1句话通俗总结本文干了什么事情

研究痛点：现有研究不足 / 要解决的具体问题

核心方法：关键技术、模型或研究设计（简要）

深入了解部分

相比前人创新在哪里

解决方法/算法的通俗解释

解决方法的具体做法

基于前人的哪些方法

实验设置、数据、评估方式

提到的同类工作

和本文相关性最高的3个文献

大模型算法工程师年薪百万，这可能是你最好的职业选择_今年大模型这工资是认真的吗？

清华智源研究成果登《Science》：DrugCLIP用AI驱动百万倍速药物筛选，开启全基因组靶向时代

经典1kw，8000RPM，外径75mm,轴向长度15mm.28极24槽永磁直流无刷电机（B...

Springboot少儿编程管理系统760av（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。

Springboot上门护理服务预约系统3hx0u（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。

扫地机器人路径规划问题，算法是全覆盖内螺旋算法，使用MATLAB实现，下列为运行图过程截图

快速了解部分

基础信息（英文）：

1句话通俗总结本文干了什么事情

研究痛点：现有研究不足 / 要解决的具体问题

核心方法：关键技术、模型或研究设计（简要）

深入了解部分

相比前人创新在哪里

解决方法/算法的通俗解释

解决方法的具体做法

基于前人的哪些方法

实验设置、数据、评估方式

提到的同类工作

和本文相关性最高的3个文献

大模型算法工程师年薪百万，这可能是你最好的职业选择_今年大模型这工资是认真的吗？

清华智源研究成果登《Science》：DrugCLIP用AI驱动百万倍速药物筛选，开启全基因组靶向时代

经典1kw，8000RPM， 外径75mm,轴向长度15mm.28极24槽永磁直流无刷电机（B...

Springboot少儿编程管理系统760av（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。

Springboot上门护理服务预约系统3hx0u（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。

扫地机器人路径规划问题，算法是全覆盖内螺旋算法，使用MATLAB实现，下列为运行图过程截图

经典1kw，8000RPM，外径75mm,轴向长度15mm.28极24槽永磁直流无刷电机（B...