迈向具备工具对齐视觉-语言-动作模型的长时程具身智体-编程阁

26年6月来自上海交大、中关村学院和北航的论文“Towards Long-horizon Embodied Agents with Tool-Aligned Vision-Language-Action Models”。

视觉-语言-动作（VLA）模型是有效的机器人动作执行者，但由于面临长时程任务中“长时间闭环规划”与“多样化物理操作”的双重负担，其应用仍受局限。为此，提出“VLAs-as-Tools”策略，将这一负担分担给两个部分：负责时序推理的高层视觉-语言模型（VLM）智体，以及用于执行各类局部物理操作的专用 VLA 工具族。VLM 负责场景分析、全局规划及故障恢复，而每个 VLA 工具则执行一个有限范围的子任务。为了在长时程任务中实现智体规划与 VLA 工具执行的紧密耦合，引入一种 VLA 工具族接口，该接口支持明确的工具选择及执行过程中的进度反馈，从而在无需智体持续轮询的情况下，实现高效的事件触发式重规划。为了获得能够忠实响应智体调用的多样化专用 VLA 工具，进一步提出“工具对齐后训练”（TAPT）方法；该方法构建与调用指令对齐的训练单元以增强指令遵循能力，并采用工具族残差适配器（residual adapters）来实现高效的工具专用化。实验结果表明，VLAs-as-Tools 策略将 π0.5 模型的成功率在 LIBERO-Long 基准上提升 4.8 个百分点，在 RoboTwin 基准上提升 23.1 个百分点；同时，基于“无偏率”（Non-biased Rate）指标衡量的调用忠实度也提升 15.0 个百分点。

近期具身智能（Embodied AI）领域的进展日益关注具有自主智体能力的系统（agentic systems），特别是在语言条件驱动和长程任务（long-horizon tasks）方面（Salimpour [2025]，Liang [2025]）。分层具身系统通常通过将高层目标分解为任务级决策和可执行的底层技能来处理此类任务（Ahn [2022]，Huang [2022]，Liang [2022]，Belkhale [2024]，Shi [2025]，NVIDIA [2025]），但这些系统往往依赖于人工设计的技能、affordance模型、潜选项（latent options）或联合训练的执行器。较新的系统利用学习的技能和智体执行循环（agentic execution loops）扩展了这一范式。智体机器人（Agentic Robot）结合推理模型、VLA 执行器和时间验证器，以实现闭环具身执行（Yang [2025b]）。ThinkAct 通过强化视觉潜规划（reinforced visual latent planning）连接了高层具身推理与底层执行（Huang [2025]）。AtomicVLA 围绕原子技能抽象和技能引导的专家特化构建一个规划与执行框架（Zhang [2026a]），而 RoboClaw 则利用视觉-语言模型（VLM）驱动的控制器来协调学习的策略原语，以完成长程任务并进行自主数据收集（Li [2026]）。LiLo-VLA 进一步表明，模块化的以物体为中心策略可以通过动态重规划和技能重用，改善组合式长程操作任务的表现（Yang [2026]）。这些研究验证技能分解和模块化策略组合的重要性。

实现长程具身任务主要有两条路径。一个方向是将规划过程整合进端到端 VLA策略中，例如 π0.5 模型在 VLA 主干网络内引入语义子任务预测和任务级规划 Token [Physical Intelligence et al., 2025]。另一个方向以 SayCan 和 Code as Policies （CaP）为代表，采用智体（agentic）范式，即由语言模型负责选择技能、编写程序或调用机器人 API [Ahn et al., 2022, Liang et al., 2022]。这种方法沿用了数字智体的成功范式：由大语言模型（LLM）处理目标分解、状态追踪、重规划及错误恢复，而工具则提供边界明确、可观测且可靠的执行接口 [Yao et al., 2022, Schick et al., 2023, Yang et al., 2024]。然而，现有的具身工具往往是人工定义且针对特定任务的，其物理执行能力弱于现代 VLA。这导致具身智能领域存在一种互补性的能力缺口：端到端 VLA 具备更强的物理执行能力，但在长程推理方面较弱；而现有的具身智体虽然规划能力更强，却依赖于较弱的物理工具。

为弥合这一缺口，提出“VLA 即工具”（VLAs-as-Tools）策略，旨在通过让具备规划能力的 VLM（视觉-语言模型）智体调用有限域 VLA 执行单元作为物理工具，来解决长程具身任务。该策略通过在时间跨度和任务广度上分担负载，克服单一 VLA 的局限性：VLM 负责通过规划、状态追踪和恢复机制来扩展长程执行能力，而多个专用 VLA 工具则覆盖各种有限域子任务。因此，每个 VLA 都在特定的执行范围内运作，能够基于特定任务的演示数据高效适配，并可靠地将视觉-语言输入映射为连续的机器人动作。然而，独立的 VLA 并不直接适合作为工具使用，因为它们的执行过程可能受到场景先验、演示规律或视觉上下文的干扰，而非完全遵循调用的指令 [Zhang et al., 2026b, Fang et al., 2026]；此外，针对特定任务的适配可能会削弱预训练模型原有的语义理解和泛化能力 [Hancock et al., 2025, Liu et al., 2026a]。因此，要实现“作为工具的 VLA”（VLAs-as-Tools），必须解决两大核心挑战：如何使 VLA 成为可调用且可靠的物理工具，以及如何将其有效地集成到具身智体系统中。

如图 1 所示“VLA 即工具”的动机与概述：

本文的独特之处在于 VLA 侧的执行接口本身：仅仅在标准 VLA 外层封装一个规划器是不够的，因此底层执行器必须针对智体所使用的同一调用单元进行后训练（post-training）。其将预训练的 VLA 开放为可重用的具身工具，其调用方式将有界语言指令与显式的工具族选择器（tool-family selectors）配对；此外，通过工具族残差适配器（tool-family residual adapters）使选定的工具族可执行，而不是仅仅将其视为额外的语言 Token。

“VLA即工具”的策略：VLA并非用作单一的长期策略，而是作为具身智体控制回路中一系列有界、可调用的执行器。高级智体与VLA工具之间的连接是一个接口I = (C, R)，其中C是智体到工具的调用消息集合，R是工具到智体的反馈消息集合。用户指定目标q，高级智体Π_φ维护一个智体端状态s_k，该状态包含观测值、先前调用和返回的反馈。在决策步骤k，智体通过接口发送调用消息。

工具族标签 g_k（例如：抓取、打开或放置）用于从 VLA 工具族 T = {T_g}中选择一个成员，其中每个 T_g 都是专用于特定工具族的可调用 VLA 工具。指令 z_k 通过指定对象、关系及期望的局部效果，将该工具族具体落实到当前场景中。

被选中的工具 T_g_k 在有限的底层时间跨度内执行调用操作。基于机器人的观测数据 o_t，它会生成相应的动作序列及一段有限的轨迹。
在执行过程中或执行结束后，所选工具会返回反馈 r_k（例如进度或完成情况等信息）。随后，智体状态得到更新，上述循环持续进行，直至任务结束。由此，该接口定义双向通信机制：C 指示所选工具执行何种操作，而 R 则向智体反馈执行过程中的情况。调用消息集 C = G X Z 是有限且对智体可见的：其中 g_k 确定工具族，而 z_k 则将所选工具族具体化为场景层面的子任务。这种形式化方法将长时程机器人控制问题转化为一系列有限的工具调用操作；在此过程中，核心的方法论挑战在于如何构建一个 VLA 工具族 T，使其成员能够被高层智体可靠地调用、监控与组合。

下面将上述形式化策略具体化为两种设计选择。首先，使 VLA 能够通过“VLA 工具族接口”被调用：智体选择一个工具族，提供基于场景的局部指令，并在有限的执行窗口内调用 VLA。因此，VLA 工具并非独立的任务策略，而是一个接收智体指定调用并返回进度反馈的有限执行器。其次，通过“工具对齐后训练”（TAPT）来训练 VLA 以遵循该接口；该方法使训练数据、适配器结构和优化目标与测试时使用的调用单元保持一致。

如图2 所示“VLA即工具”策略的闭环系统概览：

1 基于 VLA 工具族接口的双向智体-工具交互

智体-工具接口形式化定义为 I = (C, R)。针对作为工具的 VLA，通过两类带类型的消息集对该接口进行具体实现：C 包含由高层智体发送给所选 VLA 工具的调用消息，R 包含由工具返回用于监控的反馈消息。

调用消息 C

每个 VLA 工具调用包含两个字段：工具族标签和基于场景的指令。工具族标签 g_k（例如“抓取”、“打开”或“放置”）用于从 VLA 工具族集合 T = {T_g} 中选择一个可调用的成员。随后，指令 z_k 通过指定对象、关系及预期的局部效果，将所选工具族具体落实到当前场景中。这两个字段共同构成调用消息 c_k = (g_k, z_k)，即 C = G X Z。

这种分解方式使得智体的请求具有可解释性。工具族标签 g_k 负责选择工具族，而 z_k 则将该工具族与当前场景建立关联。这一点非常有用，因为视觉上相似的指令可能需要不同的工具族：例如，“抓取”、“打开”和“放置”操作可能涉及相同的对象，但在动作分布和终止条件上却各不相同。此外，显式的工具族标签也为 TAPT 围绕工具族专业化来组织数据和参数提供了一个稳定的信号。

反馈信息 R

反馈信息用于描述所选 VLA 工具在执行某次调用期间所报告的状态。采用连续进度信号 p_t 作为主要的反馈信息：数值接近 0 表示进展甚微，而数值接近 1 则表示当前调用即将完成。该信号针对特定的有界调用 c_k = (g_k, z_k)：它衡量的是所选工具调用的执行进度，而非整个长程任务的最终成败。进度反馈之所以重要，是因为智体需要在子任务彻底成功或失败之前获取实时信息。频繁查询大型 VLM 以监测执行情况代价高昂，而仅依赖二元完成信号则可能延误故障恢复。相比之下，工具端的进度信号能够揭示执行过程中的中间状态（如停滞或偏离），且无需智体针对每一个底层动作进行推理。在系统接口中，时间维度上的进度信息存储于“进度数据块”（progress chunk）内，同时由一个基于阈值的监控机制来决定是推进任务、重新规划，还是继续当前的调用。VLA 利用附加在主干特征 b_t 上的辅助预测头 pˆ_t = ψ_ω(b_t) 来预测进度。

2 通过工具对齐的后训练（TAPT）提升 VLA 工具的易用性

基于VLA 工具族接口，训练基础 VLA 模型，使其能够像可靠的可调用工具那样运作。TAPT 遵循与“智体-工具”交互循环相同的流程。首先，它围绕“有界调用”（bounded invocations）重构模仿学习与强化学习的监督信号：将演示数据分割为带有调用标签的动作窗口，并以相同的子任务粒度初始化强化学习的轨迹采样（rollouts）及奖励机制。其次，它通过在共享 VLA 主干网络之上叠加“工具族残差适配器”（tool-family residual adapters），使工具族标签具备可执行性。第三，它对所得模型进行后训练，使其既能执行请求的局部行为，又能预测该次调用的进度反馈。随后，采用标准的下游监督微调（SFT）和强化学习（RL）作为优化手段，对这一与调用对齐的工具族进行适配与评估。

基于调用对齐的训练单元

TAPT 首先围绕智体在推理阶段调用的单元来重构模仿学习。不再仅基于完整任务的轨迹进行训练，而是将演示数据分割为有限的时间窗口，并为每个窗口标注一个调用标识 c = (g, z)；其中，g ∈ G 用于标识工具族，z ∈ Z 用于描述局部场景效应。分段是根据任务标注、状态变化、接触事件及自动多模态标注获取的；标注员依据接触模式、力方向和物体运动等操作性定义来指定标签 g。

本文开发一个将原始机器人视频转换为与调用（invocation）相匹配的“工具族”（tool-family）标签的自动化流水线。该流水线的目标并非推断轨迹的无约束自然语言摘要，而是为每个有界操作片段分配一个离散的工具族标签，使其执行语义与 VLA调用接口相匹配。为此，结合全局视频理解、基于状态变化的时间分割以及基于定义的模态融合标注。这一设计借鉴近期关于大规模语言条件机器人数据集及 VLA 学习的研究（如 Walke [2023]、Khazatsky [2024]、Open X-Embodiment Collaboration [2023]、Brohan [2023a]），但其不同之处在于生成的是与调用相匹配的工具族标签，而非轨迹级的任务描述。

利用由末端执行器（夹爪）和运动产生的状态变化作为时间线索，这沿袭以往利用本体感知、力、触觉或接触状态信号来分割操作演示的研究方法（如 Su [2016, 2018]、Chen [2025]）。标签空间建立在操作原语和机器人动作表征的基础之上（如 Zech [2019]、Miao [2023]、Huang [2023]），其定义涵盖接触、力方向、物体运动及终止条件等要素。下图 5 展示该自动标注流水线的整体输出结果，包括分割后的操作片段、相应的工具族标签以及对齐的进度标注。

强化学习也采用同样的调用角度。对于每一次调用 (g, z)，构建一个有界子任务的展开（rollout）过程，而不是从原始完整任务的初始状态开始。该展开过程始于调用应发生的特定状态，这些状态源自演示边界或先前子任务的成功执行。评估依据是局部完成谓词 ψ_z,g(s)，例如涉及接触、包含、相对位姿、关节位移或物体置于表面之上等关系的条件。若该谓词在时域 H 内成立，则展开过程获得奖励 1，否则获得奖励 0；当谓词满足或达到时域上限时，该回合（episode）即告结束。

因此，模仿学习（IL）与强化学习（RL）的目标一致：即可靠地执行当前的有界调用。IL 负责教授该调用所需的动作与执行进程，而 RL 则用于验证：当智体处于实际会发起该调用的状态时，能否成功完成同一调用。

工具族残差参数化

工具族标签 g 应控制 VLA 的执行路径，而不仅仅是作为额外的语言token出现。诸如抓取、放置、打开和旋转等工具族可能共享相同的场景上下文，但它们需要不同的动作分布、终止条件和进度语义。因此，采用共享预训练骨干网络结合由 g 选定的确定性工具族残差适配器（residual adapters）来实现 VLA 工具族。

在推理阶段，智体提供 c_k = (g_k, z_k)。所选的残差路径在有界调用期间保持激活状态，并生成相应的动作。

定义的“进度头”（progress head）也使用相同的骨干网络特征。适配器（adapters）为每个工具族提供独特的执行路径，同时保留共享的视觉-语言表征。由于每个适配器都是低秩的，因此增加工具族只会带来极少的参数开销。

面向工具对齐的训练后阶段目标（TAPT）

在针对特定基准进行适配之前，TAPT 利用一个广泛的、与调用相一致的语料库 D^inv_mid，对上述参数化模型进行训练后阶段的训练（post-training）。其目标是为接口调用 c = (g, z) 建立可复用的语义：其中 g 负责选择执行路径，z 将该路径映射到场景中，而“进度目标”则用于训练反馈信号，使其能向智体提供相应的反馈。

在模仿学习（IL）方面，TAPT 结合两种监督信号。其中，动作克隆项用于训练所选的残差路径 φ_g，使其能够复现该调用对应的动作；而进度项则用于训练反馈头，使其能够预测调用的执行进度。这样的目标函数联合更新工具族残差适配器（tool-family residual adapters）与进度预测头（progress head），从而使生成的 VLA 能够学习接口的两个方面：执行调用以及返回进度反馈。

在强化学习（RL）阶段，TAPT 沿用相同的调用单元，并针对定义的有界子任务奖励进行优化。该奖励仅评估当前调用操作是否完成，而非评估整个长程任务是否最终成功。实验中，采用 Shao [2024] 提出的 GRPO 算法来实现这一强化学习阶段。后续的SFT（监督微调）与 RL 阶段沿用相同的接口与目标，仅将 D^inv_mid 替换为特定基准测试（benchmark）中与调用操作对齐的数据或环境。最终得到的是一个 VLA 工具族 T_θ,Φ = T_g，该工具族接收输入 c = (g, z)，执行选定的工具，并返回进度反馈。

实验设置

实验旨在探讨四个问题。首先，“VLA 为工具”（VLAs-as-tools）的策略能否提升长程具身任务的性能？其次，“工具对齐后训练”（Tool-Aligned Post-Training，简称 TAPT）能否使 VLA 的执行过程更忠实于智体的调用指令？第三，该策略中的哪些组件促成性能提升？第四，TAPT 能否在少样本适应（few-shot adaptation）场景下提高下游任务的数据效率？

主要基于两种具有代表性的 VLA 骨干模型（OpenVLA-OFT 和 π0.5）来评估该方法，并在适当时将 OpenVLA 作为额外的监督适应基线进行对比（参考 Kim [2024, 2025] 及 Physical Intelligence [2025] 的研究）。实验在 LIBERO（Liu [2023]）、RoboTwin（Mu [2025]）和 CALVIN（Mees [2021]）数据集上进行。针对 LIBERO，用 LIBERO-Long 以突出模型在长程任务上的表现。由于数据切分流程针对的是单臂操作，RoboTwin 评估采用 8 个可在 Franka 机器人平台上执行的单臂任务。对于 CALVIN，用 CALVIN_D 数据集，并按 80%/20% 的比例划分训练集与测试集，将其作为具有现有子任务级结构的补充测试平台。TAPT 包含两个“调用对齐”（Invocation-Aligned，简称 IA）阶段：IA Post-train（基于 DROID-split 数据集的中间后训练阶段）和 IA SFT（针对特定基准数据集——如 LIBERO-Long-split 和 RoboTwin-split——进行的下游监督适应阶段）。后缀“-split”表示这些演示数据已通过数据切分流程处理为调用对齐的子任务。在 OpenVLA-OFT 和 π0.5 的模仿学习（IL）训练中，IA Post-train 阶段均进行 1 个 epoch 的训练；在 IA SFT 阶段，LIBERO 任务分别训练 150K/30K 步，RoboTwin 任务分别训练 60K/30K 步，批次大小（batch size）则遵循官方配置，分别为 8 和 256。所有强化学习（RL）实验均基于 RLinf 实现。注：成功率指任务层面的成功。