news 2026/6/10 15:09:22

最大规模预训练具身世界模型,真机遥操作数据高达17800小时!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
最大规模预训练具身世界模型,真机遥操作数据高达17800小时!

真机数据从微调配角,变身具身预训练绝对主力

——真机预训练

目录

01 真机数据从“微调耗材”变成“预训练根基”

02 一个共享骨干,同时当“策略”和“模拟器”

VAM视频动作模型:直接输出可执行动作

ACVS动作条件模拟器:评估动作好不好用

03 机器人的“慢思考”,比猛堆参数有用

04 长程精密操作,拉开真实差距

05 重新定义开源具身模型的上限

06 机器人的“预训练→部署→回流→再训练”飞轮


廉价视频数据多到用不完,却教不会机器人精准动作;真机遥操作数据最靠谱,却贵到只能拿来微调。

当大家几乎默认:大规模预训练的主力,只能是仿真、人类视频或UMI数据,真机数据是“奢侈品”。

近日,上海创智学院副教授、智元机器人团队提出的τ₀‑WM直接打破了这个默认规则。

作为当前全球最大规模的开源预训练具身世界模型,它用5B参数、27300小时异构数据完成预训练。

其中真机遥操作数据高达17800小时,成为模型的核心底座。

更关键的是,它把测试时闭环推演、筛选、修正做成推理标配,让机器人真正实现“先虚拟推演,再物理执行”。

具身智能的预训练底层逻辑,已经从“数据凑数”转向“真机打底、异构协同、推理闭环”。

01 真机数据从“微调耗材”变成“预训练根基”

过去具身数据的金字塔结构根深蒂固:

  • 底层:互联网/人类第一视角视频,量大无动作标签;
  • 中层:UMI/仿真数据,有交互但动作对齐差;
  • 顶层:真机遥操作数据,精准但稀缺,仅用于微调。

τ₀‑WM彻底重构这套逻辑,直接把真机数据放在预训练最核心位置:

▲τ₀‑WM 框架总览

  • 真机遥操作数据(17800小时):双臂+多视角采集,动作空间与部署完全对齐,提供最高质量监督;
  • UMI数据(6500小时):补充场景与行为多样性,

这种设计让不同数据“各教各的、互不干扰”,既保留真机数据的精准性,又用上海量泛化数据。最终效果也直接验证价值:零样本任务平均成功率从14%跃升至55%,杂乱场景下的鲁棒性显著提升。

02 一个共享骨干,同时当“策略”和“模拟器”

行业常见做法是“策略模型+仿真器”两套系统独立训练,再生硬拼接,导致动作与推演的物理先验脱节。

τ₀‑WM的核心创新,是一套视频扩散骨干,承载两大核心功能

VAM视频动作模型:直接输出可执行动作

以Wan2.2‑TI2V‑5B为基底,同步完成两件事:

  • 视频分支:预测未来视觉隐变量,学习场景时空演化规律;
  • 动作分支:通过跨注意力关联视频特征,输出连续动作块。

▲视频动作模型(VAM)架构

它不是“先出画面再反推动作”,而是视频与动作联合生成,让动作预测天然绑定场景物理变化。

ACVS动作条件模拟器:评估动作好不好用

复用同一骨干,去掉动作生成头,新增任务进度预测头:

  • 输入:候选动作+当前观测+指令;
  • 输出:多视角推演画面+稠密任务奖励。

▲动作条件视频模拟器(ACVS)架构

它和策略共享同一套世界先验,既能判断动作是否会碰撞、偏移,还能预估任务推进程度,甚至从失败轨迹中学习避坑。

这种一体设计,从根源解决“推演归推演、执行归执行”的两张皮问题,也是它能在精密操作中稳定胜出的关键。

03 机器人的“慢思考”,比猛堆参数有用

当前绝大多数VLA模型都是“条件反射式”执行:看画面→出动作→执行,小错误步步迭代。

τ₀‑WM的落地价值,在于把测试时计算(TTC)变成标准流程。

整套闭环分为三步:

  1. 提议:VAM一次性采样N组候选动作;
  2. 初筛:用重去噪一致性分数(RCS)快速打分,剔除不靠谱方案;
  3. 修正:最高分仍不达标时,启动ACVS推演所有候选动作的未来状态,选中任务进度最高的结果,反向引导VAM生成修正动作。

这不是增加推理负担,而是用少量计算换取极低的试错成本。实验数据最有说服力:

  • 无闭环:成功率43%;
  • 仅RCS筛选:50%;
  • RCS+模拟器修正:60%。

尤其在笔入盒、纸巾入盒这类精密对准任务中,成功率直接翻倍。对比CFG、ACG等引导方法,τ₀‑WM的优势更明显:它不只是检查动作是否流畅,而是以“未来结果”为决策依据,更接近人类的真实决策逻辑。

04 长程精密操作,拉开真实差距

τ₀‑WM的测试场景全部聚焦工业/家用真实长程精细任务,且均未出现在预训练数据中:

▲机器人精细操作评测任务示意图

  • 工具箱分类收纳:多物体对位、压实;
  • 书包操作:拉链、收纳、闭合全流程;
  • 羽毛球装盒:精准放置+盖盖;
  • 水龙头接管:高精度柔性对准。

对比π₀.₅、Fast‑WAM两大强基线:

▲不同模型在四类任务上的成功率与任务完成度对比

  • 平均成功率全面领先;
  • 水龙头接管这类所有方法都难的极限任务,它仍保持最优鲁棒性;
  • 关键行为差异:基线满足“插入即可”,τ₀‑WM会主动压实、矫正,追求最终状态完美。

但必须客观说明:这些结果基于结构化桌面、固定视角、已知物体,未覆盖完全无序的野外场景,其鲁棒性仍有明确边界。

05 重新定义开源具身模型的上限

在当前开源具身世界模型中,τ₀‑WM:

  • 规模第一:27300小时预训练数据,真机数据占比超65%;
  • 架构最一体化:策略与模拟器共享骨干,无模块割裂;
  • 推理最落地:测试时闭环修正,直接降低真机试错成本。

它和传统生成式世界模型、纯策略模型的核心区别:

  • 不做纯视觉脑补,所有预测绑定可执行动作;
  • 不做纯精准策略,用异构数据补齐泛化能力;
  • 不把未来预测当训练装饰,而是作为推理决策的核心环节。

06 机器人的“预训练→部署→回流→再训练”飞轮

τ₀‑WM完成了三个关键范式转变:

  1. 数据范式:真机数据从微调耗材,变为预训练核心燃料;
  2. 架构范式:策略与仿真器从拼接走向一体化共享;
  3. 推理范式:从条件反射执行,走向先推演、筛选、修正再行动。

τ₀‑WM的短板也清晰可见:

  1. 纯视觉依赖:缺乏触觉反馈,柔性操作、精密插装存在天然上限;
  2. 推理算力成本:多候选采样+模拟器推演,端侧部署需做权衡;
  3. 非完全零样本:仍需少量微调适配全新任务,未实现全场景通吃。

它不是“通用机器人终局方案”,而是当前最接近工程化、数据体系最完整的具身世界模型。

对于整个具身智能行业,它给出了一条可复制的量产路线:

以大规模真机数据为底座,用异构数据拓宽泛化,以闭环推理保证可靠性。

随着真机数据采集基础设施不断成熟,τ₀‑WM已经证明:机器人的“预训练→部署→回流→再训练”飞轮,终于可以跑通了

Ref:

项目名称:τ0-WM: A Unified Video-Action World Model for Robotic Manipulation

项目网站:https://finch.agibot.com/research/tau0-wm

项目github:https://github.com/sii-research/tau-0-wm

模型huggingface:https://huggingface.co/sii-research/tau-0-wm

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 15:08:28

Java作业3

文本文件复制:import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;public class TextCopy {public static void main(String[] args) {String src…

作者头像 李华
网站建设 2026/6/10 15:06:06

参加深信服SF-Fastgpt培训小结

参加深信服SF-Fastgpt培训小结 今天参加了深信服组织的SF-Fastgpt商业版培训,整天的内容安排比较紧凑,上午讲AI基础概念,下午重点介绍商业版的功能特性。我简单梳理一下主要的收获。 上午的部分主要是AI基础知识的串讲。讲师把tokenizer的分词…

作者头像 李华
网站建设 2026/6/10 15:05:10

树链剖分入门

定义树链剖分(Heavy Light Decomposition,HLD)是一种将树分解成若干条链的方法,使得树上任意两点间的路径可以被拆分成 O(log n) 条连续的链段。借助这种分解,我们可以用线段树等数据结构维护链上的信息,从…

作者头像 李华
网站建设 2026/6/10 15:01:37

Verilog代码整洁之道:用VSCode+verilog-format打造你的专属格式化工作流

Verilog代码整洁之道:用VSCodeverilog-format打造你的专属格式化工作流在数字电路设计领域,Verilog代码的可读性直接影响着团队协作效率和后期维护成本。想象一下,当你需要修改半年前编写的模块,或是接手同事的代码时,…

作者头像 李华
网站建设 2026/6/10 14:41:22

BIOS更新真能救活你的高频内存条?实测微星主板升级0603版后,DDR4 3600/4000 XMP兼容性大提升

BIOS更新如何解锁高频内存潜力?微星主板0603版本实测与MRC优化解析最近给主机升级了DDR4 4000内存,结果开启XMP后频繁蓝屏——这恐怕是不少硬件爱好者都遇到过的糟心体验。去年装机时我也踩过这个坑,直到发现微星主板的0603版本BIOS更新后&am…

作者头像 李华