最大规模预训练具身世界模型，真机遥操作数据高达17800小时！-编程阁

真机数据从微调配角，变身具身预训练绝对主力

——真机预训练

01 真机数据从“微调耗材”变成“预训练根基”

02 一个共享骨干，同时当“策略”和“模拟器”

VAM视频动作模型：直接输出可执行动作

ACVS动作条件模拟器：评估动作好不好用

03 机器人的“慢思考”，比猛堆参数有用

04 长程精密操作，拉开真实差距

05 重新定义开源具身模型的上限

06 机器人的“预训练→部署→回流→再训练”飞轮

廉价视频数据多到用不完，却教不会机器人精准动作；真机遥操作数据最靠谱，却贵到只能拿来微调。

当大家几乎默认：大规模预训练的主力，只能是仿真、人类视频或UMI数据，真机数据是“奢侈品”。

近日，上海创智学院副教授、智元机器人团队提出的τ₀‑WM直接打破了这个默认规则。

作为当前全球最大规模的开源预训练具身世界模型，它用5B参数、27300小时异构数据完成预训练。

其中真机遥操作数据高达17800小时，成为模型的核心底座。

更关键的是，它把测试时闭环推演、筛选、修正做成推理标配，让机器人真正实现“先虚拟推演，再物理执行”。

具身智能的预训练底层逻辑，已经从“数据凑数”转向“真机打底、异构协同、推理闭环”。

01 真机数据从“微调耗材”变成“预训练根基”

过去具身数据的金字塔结构根深蒂固：

底层：互联网/人类第一视角视频，量大无动作标签；
中层：UMI/仿真数据，有交互但动作对齐差；
顶层：真机遥操作数据，精准但稀缺，仅用于微调。

τ₀‑WM彻底重构这套逻辑，直接把真机数据放在预训练最核心位置：

▲τ₀‑WM 框架总览

真机遥操作数据（17800小时）：双臂+多视角采集，动作空间与部署完全对齐，提供最高质量监督；
UMI数据（6500小时）：补充场景与行为多样性，

这种设计让不同数据“各教各的、互不干扰”，既保留真机数据的精准性，又用上海量泛化数据。最终效果也直接验证价值：零样本任务平均成功率从14%跃升至55%，杂乱场景下的鲁棒性显著提升。

02 一个共享骨干，同时当“策略”和“模拟器”

行业常见做法是“策略模型+仿真器”两套系统独立训练，再生硬拼接，导致动作与推演的物理先验脱节。

τ₀‑WM的核心创新，是一套视频扩散骨干，承载两大核心功能。

VAM视频动作模型：直接输出可执行动作

以Wan2.2‑TI2V‑5B为基底，同步完成两件事：

视频分支：预测未来视觉隐变量，学习场景时空演化规律；
动作分支：通过跨注意力关联视频特征，输出连续动作块。

▲视频动作模型（VAM）架构

它不是“先出画面再反推动作”，而是视频与动作联合生成，让动作预测天然绑定场景物理变化。

ACVS动作条件模拟器：评估动作好不好用

复用同一骨干，去掉动作生成头，新增任务进度预测头：

输入：候选动作+当前观测+指令；
输出：多视角推演画面+稠密任务奖励。

▲动作条件视频模拟器（ACVS）架构

它和策略共享同一套世界先验，既能判断动作是否会碰撞、偏移，还能预估任务推进程度，甚至从失败轨迹中学习避坑。

这种一体设计，从根源解决“推演归推演、执行归执行”的两张皮问题，也是它能在精密操作中稳定胜出的关键。

03 机器人的“慢思考”，比猛堆参数有用

当前绝大多数VLA模型都是“条件反射式”执行：看画面→出动作→执行，小错误步步迭代。

τ₀‑WM的落地价值，在于把测试时计算（TTC）变成标准流程。

整套闭环分为三步：

提议：VAM一次性采样N组候选动作；
初筛：用重去噪一致性分数（RCS）快速打分，剔除不靠谱方案；
修正：最高分仍不达标时，启动ACVS推演所有候选动作的未来状态，选中任务进度最高的结果，反向引导VAM生成修正动作。

这不是增加推理负担，而是用少量计算换取极低的试错成本。实验数据最有说服力：

无闭环：成功率43%；
仅RCS筛选：50%；
RCS+模拟器修正：60%。

尤其在笔入盒、纸巾入盒这类精密对准任务中，成功率直接翻倍。对比CFG、ACG等引导方法，τ₀‑WM的优势更明显：它不只是检查动作是否流畅，而是以“未来结果”为决策依据，更接近人类的真实决策逻辑。

04 长程精密操作，拉开真实差距

τ₀‑WM的测试场景全部聚焦工业/家用真实长程精细任务，且均未出现在预训练数据中：

▲机器人精细操作评测任务示意图

工具箱分类收纳：多物体对位、压实；
书包操作：拉链、收纳、闭合全流程；
羽毛球装盒：精准放置+盖盖；
水龙头接管：高精度柔性对准。

对比π₀.₅、Fast‑WAM两大强基线：

▲不同模型在四类任务上的成功率与任务完成度对比

平均成功率全面领先；
水龙头接管这类所有方法都难的极限任务，它仍保持最优鲁棒性；
关键行为差异：基线满足“插入即可”，τ₀‑WM会主动压实、矫正，追求最终状态完美。

但必须客观说明：这些结果基于结构化桌面、固定视角、已知物体，未覆盖完全无序的野外场景，其鲁棒性仍有明确边界。

05 重新定义开源具身模型的上限

在当前开源具身世界模型中，τ₀‑WM：

规模第一：27300小时预训练数据，真机数据占比超65%；
架构最一体化：策略与模拟器共享骨干，无模块割裂；
推理最落地：测试时闭环修正，直接降低真机试错成本。

它和传统生成式世界模型、纯策略模型的核心区别：

不做纯视觉脑补，所有预测绑定可执行动作；
不做纯精准策略，用异构数据补齐泛化能力；
不把未来预测当训练装饰，而是作为推理决策的核心环节。

06 机器人的“预训练→部署→回流→再训练”飞轮

τ₀‑WM完成了三个关键范式转变：

数据范式：真机数据从微调耗材，变为预训练核心燃料；
架构范式：策略与仿真器从拼接走向一体化共享；
推理范式：从条件反射执行，走向先推演、筛选、修正再行动。

τ₀‑WM的短板也清晰可见：

纯视觉依赖：缺乏触觉反馈，柔性操作、精密插装存在天然上限；
推理算力成本：多候选采样+模拟器推演，端侧部署需做权衡；
非完全零样本：仍需少量微调适配全新任务，未实现全场景通吃。

它不是“通用机器人终局方案”，而是当前最接近工程化、数据体系最完整的具身世界模型。

对于整个具身智能行业，它给出了一条可复制的量产路线：

以大规模真机数据为底座，用异构数据拓宽泛化，以闭环推理保证可靠性。

随着真机数据采集基础设施不断成熟，τ₀‑WM已经证明：机器人的“预训练→部署→回流→再训练”飞轮，终于可以跑通了。

Ref：

项目名称：τ0-WM: A Unified Video-Action World Model for Robotic Manipulation

项目网站：https://finch.agibot.com/research/tau0-wm

项目github：https://github.com/sii-research/tau-0-wm

模型huggingface：https://huggingface.co/sii-research/tau-0-wm

最大规模预训练具身世界模型，真机遥操作数据高达17800小时！

01 真机数据从“微调耗材”变成“预训练根基”

02 一个共享骨干，同时当“策略”和“模拟器”

VAM视频动作模型：直接输出可执行动作

ACVS动作条件模拟器：评估动作好不好用

03 机器人的“慢思考”，比猛堆参数有用

04 长程精密操作，拉开真实差距

05 重新定义开源具身模型的上限

06 机器人的“预训练→部署→回流→再训练”飞轮

Java作业3

参加深信服SF-Fastgpt培训小结

树链剖分入门

Verilog代码整洁之道：用VSCode+verilog-format打造你的专属格式化工作流

从菜鸟到高手：玩转Word/WPS表格与文本互转，这些隐藏技巧和常见坑你得知道

BIOS更新真能救活你的高频内存条？实测微星主板升级0603版后，DDR4 3600/4000 XMP兼容性大提升