news 2026/4/16 11:56:48

RDT2发布,叠衣服成功率爆拉了pi0.5 40%!全球首个在未见过的本体上实现零样本部署

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
RDT2发布,叠衣服成功率爆拉了pi0.5 40%!全球首个在未见过的本体上实现零样本部署

今天,RDT团队正式发布RDT2,作为RDT-1B的续作,是首个能在未见过的机器人本体上实现零样本部署的基础模型,可执行拾取、放置、按压、擦拭等简单开放词汇任务。这次更是多方面发力:

硬件重新设计:通过采用更高强度材料和更精准的跟踪方法,对UMI硬件进行了重新设计,确保其在大规模数据收集中保持可靠。

大规模多样化数据:采集了超过10,000小时的人类操作视频,涵盖100多种不同的室内场景,覆盖了夹爪可执行的大部分家庭任务。

视觉语言动作预训练:采用残差向量量化(Residual VQ)作为动作tokenizer,在UMI数据集上对Qwen2.5-VL-7B-Instruct进行预训练,使其具备了卓越的指令跟随能力。

扩散蒸馏技术:以流匹配损失训练RDT模型作为动作专家,随后将其蒸馏为单步生成器,实现了超高速推理。

目前,已开源RDT2-VQ和RDT2-FM的代码与权重。包括其他模型的数据、代码和权重在内的其余组件也将于近期发布。

论文名称:RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization

论文链接:https://arxiv.org/pdf/2602.03310

项目链接:https://rdt-robotics.github.io/rdt2/

原文链接:RDT2发布,叠衣服成功率爆拉了pi0.5 40%!全球首个在未见过的本体上实现零样本部署

RDT2的愿景

通向具身超级智能的道路需要全新的范式。即使质量最高、能完全弥合本体差异的遥操作系统,仍存在显著缺陷:成本高昂且不具备可移植性。在获取多样化场景和任务数据方面存在困难,而这恰恰是训练通用模型所必需的。

RDT2的愿景是突破这些限制,设想未来将构建于可穿戴系统之上,在全球范围内无缝捕捉人类活动的丰富性。这种方法不仅能收集数据,更能精确映射我们与物理世界交互的本质结构,为具身超级智能奠定关键基础。

UMI Hardware

初代UMI采用3D打印制造,其结构强度不足以支撑长期高频数据采集。为解决这一局限,重新设计了机械结构。新款产品采用坚固的尼龙66与玻璃纤维复合材料,通过数控精密加工制成。我们摒弃了原先在无纹理室内环境中经常失效的SLAM跟踪方案,转而采用基于红外光的定位系统来追踪末端执行器的六自由度位姿。

由于硬件为机器人与人类提供了统一的末端执行器接口,本体差异被降至最低。因此,基于此类UMI数据训练的模型能够零样本部署到任何机械臂上。无需遥操作系统,无需重新采集人类数据,也无需微调模型,真正实现即插即用。只需:购买指定型号的摄像头与夹爪,使用配套的法兰与3D打印相机支架进行安装,并对齐工具中心点坐标系即可。

数据集

RDT团队生产了近100套UMI设备,并将其部署到100多个真实家庭与办公场景中进行数据采集。共收集了超过10,000小时的操作数据,涵盖了绝大多数常见的人类操作任务。得益于硬件的高度便携性与低成本特性,能够以约十分之一的成本和五倍于遥操作系统的速度完成同等规模的数据采集。

以下是数据集中部分片段的可视化展示:

训练阶段

训练分为3个阶段:

1)stage1

第一阶段,在纯UMI数据集(即1万小时UMI数据)上训练了Qwen2.5-VL-7B-Instruct–一个曾经过互联网规模文本与图像数据预训练的视觉语言模型。该模型以两张腕部视角鱼眼图像和一条语言指令作为输入,输出离散化的动作token。这些动作token是通过残差向量量化技术,从连续的机器人动作(双手的六自由度末端执行器位姿与夹爪开合度)中离散化得到的。

为稳定向量量化训练并提升码本利用率,采取了多项措施:包括因子化编码、余弦相似度计算、指数移动平均更新及codebook重启技术。同时,将旋转、平移和夹爪开合度的离散化过程解耦,实践证明这能有效避免多训练目标间的冲突。最终,将长达0.8秒(30赫兹)的动作片段高效压缩为固定长度的27个tokens。在同等精度下,该长度仅为FAST方法的1/3,离散分箱方法的1/8。因此,由于生成动作片段所需的前向传播次数更少,模型具有显著更低的延迟。

本阶段产出的模型被命名为RDT2-VQ。它需要通过自回归方式生成27个tokens(即进行27次前向传播)来获得一个动作片段。

2)stage2

在第二阶段,用4亿参数的RDT模型替代了残差向量量化模块作为动作专家,遵循π0和π0.5的最佳实践,在去噪过程中关注Qwen网络的键值对。该模型通过五次扩散去噪步骤即可生成连续的机器人动作,完全避免了离散化误差。将第一阶段产出的权重复制到Qwen网络中并冻结参数,随后采用流匹配损失对RDT模型进行训练。

本阶段产出的模型被命名为RDT2-FM。此后,将少量UR和Franka真实机器人数据与原始UMI数据进行混合后训练,得到后训练模型RDT2-FM-Post以作区分。这两个模型的速度远超第一阶段模型,仅需执行一次Qwen前向传播和五次4亿参数RDT模型的前向传播即可完成推理。

3)Stage 3

第三阶段,将RDT2-FM模型蒸馏为单步扩散策略且未出现性能损失,此过程中Qwen网络始终保持冻结状态。该模型能够通过单次扩散步骤直接将纯噪声映射为机器人动作,其机制类似于生成对抗网络。

得益于高效的残差向量量化和单步生成器设计,70亿参数模型的推理速度已达到并超越了30亿参数的基线模型。本阶段产出的模型被命名为RDT2-UltraFast。该模型是目前速度最快的版本,仅需执行一次Qwen前向传播和一次4亿参数RDT模型的前向传播即可完成推理。这种超低延迟对于乒乓球对打等需要实时响应的任务至关重要。

现将RDT2系列模型说明如下:

RDT2-VQ:第一阶段成果,卓越的指令跟随能力,推理速度较慢,支持强化学习,已发布🎉
RDT2-FM:第二阶段成果,性能更优,推理速度快,暂不支持强化学习,已发布🎉
RDT2-FM-Post:第二阶段衍生产品,RDT2-FM的孪生版本,针对UR和Franka平台进行性能优化,即将发布🔜
RDT2-UltraFast:第三阶段成果,性能更佳,超高速推理,暂不支持强化学习,即将发布🔜

结果对比分析

全新训练完成的RDT2模型在完整的"4U"条件下——未见过的本体场景物体语言指令——展现出强大的零样本泛化能力。我们将此定义为相变临界点:系统行为已从狭隘的专用模式跃迁至真正的通用模式。

该系统能够接收日常开放式指令,并将抽象语言锚定在物理行为中。虽然尚未达到完美,但这个里程碑具有决定性意义:规模化发展方向已被验证正确,模型已首次展现出清晰的具身超级智能特征。

具身求职内推来啦

近50家主流具身公司,校招&社招&实习均可

国内最大的具身智能全栈学习社区来啦!

具身智能之心知识星球:国内最大的具身智能全栈技术社区来啦!

推荐阅读

从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂

工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)

具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂

VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~

MuJoCo具身智能实战:从零基础到强化学习与Sim2Real

从零训练你的足式机器人!让你的足式机器人真正动起来~

具身领域的目标导航到底是什么?有哪些主流方法?

Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?

具身智能视觉语言动作模型,VLA怎么入门?

视觉语言导航的主流方法有哪些?是怎么用的?

1v1 科研论文辅导来啦!

重磅!具身智能之心论文辅导来啦(近20+方向,顶会/顶刊/SCI/EI/中文核心/申博等)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 11:15:57

如何在Android上恢复已删除的联系人

不幸的是,您的联系人有时会被意外地从Android设备中删除。失去联系人可能会给您的个人和职业生活带来许多不便。在这种情况下,您可能想知道如何在Android设备上恢复已删除的联系人。本文将全面讨论如何在Android手机上恢复已删除的联系人。 第 1 部分&am…

作者头像 李华
网站建设 2026/4/16 11:09:57

Native AOT 能改变什么?.NET 预编译技术深度剖析

当面试官问怎么缩小.NET发布后的文件体积、去掉多余依赖呢?想起了AOT,那么提到AOT首先要了解JIT。 长期以来,大多数 .NET 应用都依赖 即时编译(JIT,Just-In-Time) 机制运行。也就是说,程序发布时是中间语言…

作者头像 李华
网站建设 2026/4/16 13:07:59

【科普】用材料屏蔽阻挡防空间辐射,有用吗?有多大用?

如题,是很多卫星相关产品设计师经常提出的问题。对此,没有简单的答案可以一言以蔽之,需要综合考虑具体的空间辐射危害类型及其根源辐射粒子特性。 空间辐射对卫星造成的危害主要是两大类,一类是与产品寿命相关成正比的确定性累积…

作者头像 李华
网站建设 2026/4/16 10:38:41

聪明的人其实已经发现,26年前端面试已经不对劲了

现在随便刷个职场论坛、求职群,到处都是前端求职者的吐槽——一个岗位扔出去,上千人抢;面试的时候问的全是天花乱坠的高深问题,真等入职了,干的还是最基础的活儿。其实稍微留心点就会发现,2026年前端面试的…

作者头像 李华
网站建设 2026/4/15 17:46:42

Nodejs计算机毕设之基于VUE的时事新闻管理系统基于VUE框架的实时新闻推送平台(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/16 10:48:16

【课程设计/毕业设计】基于VUE框架的新闻订阅平台实时新闻推送平台【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华