news 2026/4/29 6:53:29

腾讯开源机器人“最强大脑“:HY-Embodied-0.5-X发布,刷新22项评测16项最佳

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
腾讯开源机器人“最强大脑“:HY-Embodied-0.5-X发布,刷新22项评测16项最佳

腾讯具身大模型开源了:机器人"看懂、想清、做到"的全流程,这次都有专属模型

腾讯 Robotics X 实验室和混元团队最近联合开源了一款专门给机器人用的多模态大模型——HY-Embodied-0.5-X。

这个模型的出现,解决了一个很实在的问题:通用大模型很强,但直接塞给机器人用,往往在"空间感知"和"动作执行"上差点意思。HY-Embodied-0.5-X就是从底层架构到训练范式,专门为具身智能量身定制的。

MoT架构:比MoE更适合机器人?

HY-Embodied-0.5系列包含两个版本:MoT-2B(端侧部署)和MoE-32B(复杂推理)。

值得专门说的是MoT(Mixture-of-Transformers)架构。它和常见的MoE(混合专家)有什么不同?

MoE的核心是让模型在不同任务时只激活部分专家子集,节省计算量。MoT在此基础上,额外引入了视觉潜在Token机制——在处理图像时,不是把所有像素都变成Token,而是先压缩成更精炼的视觉表征,再与语言空间对齐。

这样做的好处是:机器人在"看"一个物体时,不需要处理海量像素级的信息,而是直接提取空间关系、物体轮廓、动作目标等高语义信息。这对于需要实时响应的机器人来说,推理速度会快很多。

此外,MoT还用了原生分辨率视觉编码器,不需要先把图像缩放到固定尺寸再处理,保持了原始视觉信息的精度。

实测数据:16项最佳,刷新行业纪录

HY-Embodied-0.5系列在22项权威具身智能评测中取得了16项SOTA。

具体来说:

  • MoT-2B端侧版本:40亿总参数,推理时只激活20亿。在16项基准测试中,超越所有同规模最优模型。换句话说,2B级别里它最强。
  • MoE-32B版本:总参数4070亿,激活320亿,性能可比肩Gemini 3.0 Pro前沿水平。

32B版本对标Gemini 3.0 Pro这个信息挺有意思——腾讯第一次把自己的具身模型直接放到和Gemini同一个量级上比较,而不是只说"国内领先"。

“看懂、想清、做到”:机器人从指令执行走向任务自主

HY-Embodied-0.5-X的核心能力,可以概括为三个方向:

第一,看懂:精细操作理解。不是简单地"识别物体在哪里",而是理解物体之间的空间关系、遮挡关系、材质特性(比如"拿起这个玻璃杯"和"拿起这个铁块"的动作力道完全不同)。

第二,想清:长程规划。机器人在执行复杂任务时,需要把一个高层次目标分解成多个子步骤,并能在执行过程中根据环境变化调整计划。

第三,做到:动作预测与风险判断。机器人不仅要规划动作,还要预判动作可能带来的后果(撞到障碍物、物体滑落等),并提前规避。

训练数据:超1亿条具身专属数据

支撑这些能力的基础,是超过1亿条高质量具身专属数据,包括自采的机器人第一视角操作数据和开源具身数据集。

团队还引入了思维链标注和数据质量闭环——在训练过程中,让模型显式输出推理步骤(“先看夹爪位置,再计算抓取角度……”),然后通过质量筛选只保留正确推理对应的数据,逐步提升模型表现。

训练策略采用了分阶段迭代:先用小规模高质量数据验证训练配置,确认有效后再扩展到大规模。这种方法提升了训练效率和稳定性。

开源已上线GitHub和Hugging Face

目前,MoT-2B模型权重及推理代码已登陆GitHub和Hugging Face,HY-Embodied-0.5-X增强版也同步开源。

这意味着开发者和研究者可以直接下载模型,在自己的机械臂/移动机器人上做部署和微调,不需要找腾讯申请。

  • Github地址:https://github.com/Tencent-Hunyuan/HY-Embodied-0.5-X
  • Hugging face地址:https://huggingface.co/tencent/HY-Embodied-0.5-X

为什么这件事值得关注

具身智能这几年一直是AI领域最热的赛道之一,但落地卡脖子的问题始终是"最后一公里"——模型在仿真环境里表现不错,放到真实机器人上就容易出问题。

HY-Embodied-0.5-X这次专门针对真实交互场景优化,加上MoT架构在视觉-语言对齐上的优势,让机器人在物理世界里的可用性往前走了一步。从家庭服务机器人到工业柔性生产线,这项开源成果都可能加速落地速度。

文章来源:AITOP100,原文地址:https://www.aitop100.cn/hy-embodied-0.5-x

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/29 6:47:22

微信点餐小程序

1. 系统概述1.1 产品定位基于微信生态的轻量化餐饮点餐工具,通过"扫桌码即点餐"的模式,替代传统纸质菜单和人工点单,提升门店运营效率,降低人力成本,沉淀用户数据。1.2 核心目标- **效率提升**:单…

作者头像 李华
网站建设 2026/4/29 6:46:01

软件相互关系图管理中的关联分析者

软件相互关系图管理中的关联分析者:系统架构的"侦探"与"桥梁" 在复杂的软件系统中,各类组件如同城市中的建筑群,彼此依赖却又隐藏着千丝万缕的联系。而关联分析者正是这些关系的"解码专家",他们通…

作者头像 李华
网站建设 2026/4/29 6:39:25

Python自动化脚本跨平台兼容性处理

写一个脚本在自己的Windows电脑上跑得好好的,放到服务器Linux上一跑就报错——这是每个Python开发者都会遇到的问题。本文详细介绍如何编写真正跨平台的Python自动化脚本,包括文件路径、系统命令、换行符等常见坑点。 跨平台问题的根源 Python在设计时就考虑了跨平台,但仍…

作者头像 李华
网站建设 2026/4/29 6:34:44

一年读完12本书,硬核搞定AI大模型入门!建议收藏!

本文推荐了12本AI大模型入门必读好书,涵盖GPT系列、Transformer架构、大模型应用开发、AIGC、LangChain等核心技术,适合深度学习基础者及研究生。书籍内容从基础理论到前沿进展,结合实际案例,帮助读者全面了解大模型技术&#xff…

作者头像 李华
网站建设 2026/4/29 6:33:41

第八章:打印与导出

前言欢迎来到第八章!经过前面七章的学习,你的 Spread 表格已经具备了数据展示、美化、计算、交互、数据处理等完整功能。但还有一个最常见的需求:用户想把表格打印出来,或者导出为 Excel/PDF 文件。今天我们就来学习 FpSpread 的打…

作者头像 李华