news 2026/5/9 7:11:38

MANUS:用于视觉、语言、行动模型创建的高保真第一人称数据采集设备

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
MANUS:用于视觉、语言、行动模型创建的高保真第一人称数据采集设备

“RoboBrain-Dex:多源自我中心训练用于集成灵巧视觉-语言-行动模型”。

灵巧手遥操作目前为止仍然是机器人技术中最具挑战性的前沿领域之一。尽管视觉-语言-动作模型在通用机器人能力方面表现出很大潜力,但其面临一个关键瓶颈:灵巧手技能的大规模学习、动作注释数据稀缺。传统遥操作方法成本高且耗时,而现有的人类运动数据集则存在视角依赖、遮挡和捕获环境受限等问题,这限制了它们在机器人训练中的应用。

北京大学和北京人工智能学院的研究人员开发了RoboBrain-Dex,这是一个通过利用MANUS数据手套来克服这些数据收集挑战的灵巧手操作的突破性视觉-语言-动作模型。其工作展示了高保真手部追踪如何实现大规模、多源的自我中心数据集的创建,这些数据集将人类和机器人操作紧密联系在一起。

便携式、高保真大规模数据收集

RoboBrain-Dex 研究团队构建了Ego Atlas,一个综合的多源自我中心数据集,将人类和机器人操作数据统一在一个动作空间下。其数据收集基础设施的核心:MANUS Quantum Metagloves 可捕捉每只手的所有25个手关键点的精确3D位置。

与受限于捕捉体积和遮挡问题的基于相机或VR追踪系统不同,MANUS手套追踪系统 实现了便携、随时随地的动作捕捉。结合VIVE追踪器进行6自由度手腕姿态追踪,该系统提供了手部定位,同时保持指尖级的精度。这种方法消除了视角依赖性,并能够在各种真实环境下收集数据,这对于构建用于稳定的VLA模型训练所需的规模和多样化的数据集至关重要。

从人类演示到机器人控制

由MANUS手套捕获的高保真运动数据在RoboBrain-Dex管道中起到了双重作用。对于人类演示,手套记录了自然的操纵行为,为学习机器人动作提供了丰富的先验知识。对于机器人远程操作,相同的手套追踪系统实现了精确控制:通过逆运动学将手腕姿势转换为机器人手臂配置,而指尖轨迹通过基于IK的重新目标映射到灵巧手关节空间。

这种无缝的人机翻译对于收集补充RoboBrain-Dex人类数据集的机器人演示数据至关重要。研究人员成功地将这种远程控制方法应用于配备Inspire 6-DoF灵巧手的Unitree G1人形机器人上,收集了高质量的多种操作任务演示数据。

推动该领域发展的成果

基于由MANUS手套支持的多源第一人称数据,RoboBrain-Dex在六个真实世界的灵巧操作任务中实现了超高的平均成功率。该模型在分布外场景中表现出色。

RoboBrain-Dex模型代表了一个重要的转变,通过数据采集设备MANUS的毫米级手部追踪精度和便携、可扩展的部署训练机器人灵巧手更加贴合真实人类操作。随着具身人工智能继续向人类水平的操纵能力发展,高保真第一人称数据采集设备仍然是弥合人类灵巧度与机器人智能之间差距的基础。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/6 20:10:13

Qwen情感分析准确率提升秘籍:System Prompt优化教程

Qwen情感分析准确率提升秘籍:System Prompt优化教程 1. 引言 1.1 项目背景与技术挑战 在边缘计算和资源受限的部署场景中,如何以最小代价实现多任务AI能力,是当前工程落地的一大难题。传统方案通常采用“专用模型堆叠”策略——例如使用BE…

作者头像 李华
网站建设 2026/5/9 2:11:40

MGeo自动化流水线:结合Airflow实现每日定时地址去重

MGeo自动化流水线:结合Airflow实现每日定时地址去重 1. 引言 1.1 业务背景与痛点分析 在地理信息处理、用户画像构建和物流系统中,地址数据的准确性与一致性直接影响下游服务的质量。然而,现实中的地址数据普遍存在表述多样、格式不一、错…

作者头像 李华
网站建设 2026/5/3 11:16:53

fft npainting lama清除按钮作用:重新开始操作指南

fft npainting lama清除按钮作用:重新开始操作指南 1. 快速开始 1.1 启动WebUI服务 在终端中执行以下命令启动图像修复系统服务: cd /root/cv_fft_inpainting_lama bash start_app.sh当终端输出如下提示信息时,表示服务已成功启动&#x…

作者头像 李华
网站建设 2026/4/28 1:37:25

Heygem使用全攻略:支持格式、性能优化与常见问题解决方案

Heygem使用全攻略:支持格式、性能优化与常见问题解决方案 1. 系统简介与核心功能 HeyGem 数字人视频生成系统是一款基于人工智能技术的音视频合成工具,能够实现音频驱动下的人像口型同步视频生成。该系统由开发者“科哥”进行二次开发并集成 WebUI 界面…

作者头像 李华
网站建设 2026/5/3 4:08:32

Qwen3-4B端侧部署对比:手机vs云端GPU方案

Qwen3-4B端侧部署对比:手机vs云端GPU方案 你是不是也正在为Qwen3-4B模型的部署方式纠结?是装在自己的手机上,走“本地私有”路线,还是扔到云端GPU服务器上跑得更快更稳?作为一名长期折腾AI模型部署的技术老兵&#xf…

作者头像 李华
网站建设 2026/4/30 21:26:25

GPT-OSS-20B部署指南:从零开始搭建网页推理

GPT-OSS-20B部署指南:从零开始搭建网页推理 1. 引言 1.1 技术背景与趋势 随着大语言模型(LLM)在自然语言处理领域的广泛应用,越来越多的开发者和研究者希望能够在本地或私有环境中部署高性能的开源模型。OpenAI推出的GPT-OSS系…

作者头像 李华