清华腾讯联手让机器人“读懂“人类动作-编程阁

这项研究由清华大学深圳国际研究生院、腾讯机器人实验室（Tencent Robotics X）和鹏城实验室联合完成，论文以arXiv预印本形式发布于2026年4月10日，编号为arXiv:2604.08921。感兴趣的读者可通过该编号在arXiv平台检索完整论文。

**机器人想帮你，却找不准你的手在哪里**

假设你坐在轮椅上，一台护理机器人正要伸手扶你站起来。它的摄像头就装在自己身上，距离你只有不到一米，拍到的画面里满是你的上半身——但它能否准确判断出你的腋下、肩膀此刻在空间中的精确位置？差了十厘米，它可能会戳到你；差了二十厘米，可能根本够不着。

这个看似简单的问题，在机器人技术领域困扰了研究人员很长时间。正是为了解决这一难题，来自清华大学、腾讯机器人实验室和鹏城实验室的研究团队开发了一个名为TAIHRI的系统。这是业内首个专门为近距离人机交互场景设计的"视觉语言模型"——换句话说，它不仅能看图，还能理解人说的话，并把两者结合起来，精准定位人体上那些对当前任务最关键的位置。

研究团队将整个问题归结为一句话：机器人不需要了解你全身每一块肌肉的形状，它只需要知道"在做这件事的时候，最重要的那几个点在哪里"。这个思路看起来朴素，但实现起来却需要一套全新的技术方案。

---

一、为什么已有的技术不够用？

在理解TAIHRI之前，有必要先说清楚现有方法面临的困境。

过去十多年里，研究人员开发了许多从单张照片重建人体姿态的技术，比如著名的SMPL系列人体模型以及基于它的各种估计方法。这些技术的共同目标是：给定一张照片，输出整个人体所有关节的三维坐标。听起来很全面，但它们几乎无一例外地使用了一种叫做"根坐标系"的评估方式——简单说，就是以人体的骨盆作为原点，描述各个关节相对于骨盆的位置。

这种方式在拍全身照的场景下很好用，就像你在相册里看一张集体合影，知道每个人的大致姿势就够了。然而机器人面对的场景完全不同：它的摄像头贴着自己的身体，距离被服务的人往往不到两米，看到的画面里可能只有对方的上半身甚至局部肢体。在这种情况下，"这个人的左手腕相对于他骨盆的位置"这个信息对机器人几乎没有意义——机器人需要的是"左手腕此刻在我（机器人）的摄像头坐标系下，距离我多远、在哪个方向"。

近些年有一些方法开始尝试引入摄像头的内参（一种描述摄像头光学特性的参数，类似于镜头的规格说明书），从而把姿态估计的结果换算到真实的三维空间里。这是一大进步，但新的问题随之出现：在近距离拍摄时，画面里的人往往是被截断的——你只能看到上半身，或者只有一只手臂。传统方法依赖对完整人体的理解来推断全身位置，一旦看不到完整的人，估计精度就会急剧下降，而且这种误差偏偏会集中体现在那些离躯干最远的部位，比如手腕、脚踝——而这些恰好是机器人最需要精确定位的地方。

研究团队在论文中展示了一个令人印象深刻的对比案例：当一个人站在离机器人约两米处时，多个当前最先进的方法对其手腕位置的估计误差高达几百毫米，有的甚至超过了九百毫米——将近一米的误差，对于任何需要实际接触的任务都是不可接受的。

---

二、 TAIHRI的核心思路：把问题想小，把精度做高

TAIHRI的解题思路可以用一个日常场景来理解。假设你是一位厨师，有人告诉你"今天要做一道红烧肉"，你的注意力会自然集中在猪肉、酱油、糖和葱姜这几种核心食材上，而不是去盘点整个厨房里所有的调料。TAIHRI的任务感知逻辑与此相似——用户或机器人控制系统告诉它"要握手"，它就把注意力集中到右手腕；说"要搀扶"，它就去找腋下和肩膀。

为了实现这一目标，TAIHRI被构建为一个视觉语言模型，它的底座来自阿里巴巴开源的Qwen3-VL，参数量分别为2亿和4亿两个版本。这类模型的特点是能够同时处理图像和文字，并以"预测下一个词"的方式逐步生成回答——就像聊天机器人回答你的问题一样，只不过TAIHRI输出的不是文字，而是一系列代表三维空间坐标的数字标记。

研究团队在这个框架上做了几项关键设计，缺一不可。

第一项是"离散化交互空间"。直接预测精确的三维坐标对语言模型来说很困难，因为这些模型天生擅长处理离散的符号（比如文字），而不是连续的数值。研究团队的解决方案是把机器人前方的空间切成一个个小格子，就像把一个立方体蛋糕切成一千乘一千乘一千的小方块，每个方块用一个编号来代表。宽度方向、高度方向、深度方向各分一千格，任何一个位置都可以用三个零到九百九十九之间的整数来精确描述。这样，预测位置就变成了"从词汇表里选词"的问题，与语言模型的工作方式天然契合。

第二项是"统一焦距处理"。不同摄像头有不同的焦距（这个参数决定了画面的视野宽窄和透视关系），直接用不同焦距的图片训练模型会让模型很困惑。研究团队采用了一个聪明的处理方式：把所有输入图像统一缩放到对应焦距为一千的尺寸，就像把不同比例尺的地图统一换算成同一个比例尺，然后再进行分析。与此同时，他们用随机裁剪的数据增强方式来模拟不同主点偏移的情况，使模型能够适应各种摄像头配置。

第三项，也是最有新意的一项，是"先看二维、再想三维"的推理链设计。这个设计受到"思维链"技术的启发——在人工智能领域，让模型在给出最终答案之前先写出推理过程，往往能显著提升准确率，就像数学考试时要求写出解题步骤而不是直接填答案。TAIHRI在预测关节的三维坐标之前，会先预测它们在图像平面上的二维像素位置，然后再根据这些二维位置和空间深度关系推算出三维坐标。这个设计非常合理：从一张照片里找到一个人的手腕在图像上的大概位置（二维定位），比直接猜它距离摄像头有多远要容易得多；有了准确的二维位置后，再结合已知的摄像头参数推算深度，精度自然大幅提升。

---

三、训练用的数据：从零搭建一个"近距离互动图书馆"

再好的方法也需要数据来训练。然而现有的人体姿态数据集几乎全是从远处拍摄的全身照，完全不符合机器人近距离服务场景的需求。

为此，研究团队专门构建了一个名为CloseHRI的数据集。整个制作过程分为几个阶段，有点像用积木搭建一个虚拟的人机交互训练场。

第一步，团队从AMASS这个大型动作捕捉数据库里抽取了大量真实人体动作序列，然后用Blender（一个专业的三维建模软件）把这些动作渲染成法线图——法线图是一种特殊的图像格式，记录的是物体表面每个点的朝向，看起来像是五颜六色的人形轮廓，可以精确描述人体的形态而不带任何纹理细节。在渲染时，他们把虚拟摄像机放置在距离人体零点五到三米的位置，高度和朝向随机变化，模拟真实机器人上摄像头的各种可能角度。

第二步，以这些法线图为控制信号，团队使用了SDXL（一款高质量的人工智能图像生成模型）配合各种文字描述（比如"一个穿红色衬衫的人站在客厅里"）来生成看起来真实自然的照片。这些生成的照片背景各异、人物衣着多样，但身体姿态和与摄像机的空间关系是完全受控的。

第三步是质量过滤。用SAM3（一种图像分割工具）检查生成图像里人体区域与预期形态的重合程度，只保留重合度（IoU）超过0.9的高质量图像；再用VitPose（一种二维姿态估计工具）重新检测图像中的关节点位置，只保留检测误差在十五像素以内的样本。

经过这套流程，CloseHRI最终包含超过一百万张图像。加上额外引入的BEDLAMv1、BEDLAMv2和PDhuman等数据集中的近距离样本（过滤掉人体平均深度超过三米的样本），最终训练集约有一百二十万张图像。研究团队还专门为训练准备了一个包含六千多条不同表述方式的"交互指令词库"，覆盖了"帮人从轮椅上站起来"、"给人按摩肩膀"、"和人握手"等各种真实场景的描述。

---

四、强化学习：让模型从"及格"进化到"精准"

TAIHRI的训练分两个阶段完成，可以用学开车来类比。第一阶段是"教练示范、学员模仿"的有监督训练（SFT阶段）：给模型看大量图片，同时告诉它正确答案应该是什么，让它学会基本的推理模式。这一阶段结束后，模型已经能给出大致合理的结果，但还不够精准。

第二阶段是"自己练习、根据反馈调整"的强化学习（RFT阶段）：模型对同一张图片生成多个不同的预测结果，然后根据这些结果与正确答案的差距获得"奖励分数"，得分高的预测策略会被强化，得分低的会被削弱。这个过程类似于一个棋手通过大量对弈来磨练棋感——不是死记硬背棋谱，而是通过反馈逐渐形成更好的判断。

具体来说，研究团队使用了一种叫做GRPO的强化学习算法。奖励函数的设计是一大亮点：它综合了两种信号，一是用"胡伯损失"（一种对极端误差不那么敏感的数学工具，就像裁判打分时会去掉最高分和最低分取中间值）衡量所有可见关节的平均预测误差，二是统计有多少关节的误差在一个预设阈值以内（类似"命中率"）。两者加权组合后形成最终奖励，既关注整体精度，也关注极端失误的频率。

这个设计有一个重要细节：研究团队发现如果在强化学习阶段改用最简单的均方误差（MSE）作为损失函数，性能会急剧下降——均方误差对极端误差的惩罚过重，会导致模型的梯度更新出现偏差，就像教练对学员每一个小错误都严厉批评，反而让学员越来越紧张、越练越差。改用胡伯损失和命中率的组合后，模型的收敛更加稳定，最终精度也显著提升。

---

五、实验结果：数字背后的真实差距

研究团队在两个独立的测试数据集上验证了TAIHRI的性能，分别是Harmony4D-Egocentric（包含6389帧近距离人与人互动的画面，用20台外置摄像机的多视角三角测量获取精确三维标注）和EgoBody（从中筛选了5000帧三米以内的近距离样本）。评估指标是"全局坐标系下的平均关节位置误差"（G-MPJPE），单位是毫米，这个指标不做任何对齐或修正，直接衡量预测位置与真实位置在三维空间中的欧氏距离——对机器人实际应用来说，这是最直接也最严苛的评估标准。

为了全面考察模型的任务感知能力，测试设计了四种不同的关节组合：上肢关节（双侧肩膀和双侧肘部）、下肢关节（双侧髋部和双侧膝盖）、左侧上肢（左肩、左肘、左腕）和右侧上肢（右肩、右肘、右腕）。

在Harmony4D数据集上，TAIHRI的4B版本在上肢关节的误差为93.83毫米，而目前最优秀的对比方法SAM 3D Body（基于DINOv3主干网络）的误差为124.91毫米，CameraHMR的误差更是高达167.50毫米。在左侧上肢这一项，TAIHRI达到107.81毫米，而SAM 3D Body为143.13毫米，PromptHMR为158.25毫米。这些差距在实际操作中意味着什么？简单说，TAIHRI的误差大约相当于一根手指的宽度，而部分竞争方法的误差超过了一个拳头的大小。

在EgoBody数据集上，TAIHRI同样领先——上肢误差为75.77毫米，比SAM 3D Body的89.87毫米低了约16%，比CameraHMR的94.92毫米低了约20%。

与通用大模型的比较同样说明问题。研究团队抽取了50个典型样本，让GPT-5.2、Qwen3-VL-235B-A22B-Instruct和Gemini-2.5 Pro也来做同样的测试。GPT-5.2根本不支持从单张图片预测三维坐标；Qwen3-VL虽然能给出数字，但误差高达1298.3毫米，基本没有实用价值；Gemini-2.5 Pro表现最好但误差仍有436.9毫米，是TAIHRI（97.2毫米）的四倍多。

此外，研究团队还测试了一种"先检测二维关节点再用深度估计模型推算三维坐标"的方案。具体做法是先用VitPose检测图像中的关节点位置，然后分别用Depth Anything 3和DepthLM这两种深度估计模型读取对应像素的深度值，再反投影到三维空间。尽管这类方法在通用场景下表现不错，但在近距离人机交互场景中，误差分别为352.2毫米和282.3毫米，远逊于TAIHRI。这是因为深度估计模型对图像中每个像素独立预测深度，并不理解人体的结构约束，遇到关节被遮挡或位于人体内部的情况时，估计结果就会出现系统性偏差。

---

六、消融实验：拆开来看哪块功劳最大

研究团队还做了一系列"拆零件"的对比实验，逐个验证设计中每个环节的必要性。

关于摄像头内参的处理方式，实验显示：如果完全不给模型提供摄像头参数，误差在上肢关节上从93.83毫米猛增到425.13毫米；如果改用一种"可学习的射线嵌入"（让模型自己从数据中学习如何处理不同摄像头参数）来代替研究团队设计的焦距统一化方案，误差降至380.29毫米，有所改善但仍远不如原方案。这说明把摄像头参数以"统一焦距+图像缩放"方式注入模型的设计是精准定位的关键基础。

关于二维推理环节，如果跳过二维关节预测、直接让模型输出三维坐标，上肢误差从93.83毫米升至126.67毫米。这验证了"先定位二维再推算三维"的思路确实有效——二维预测为三维推断提供了必要的视觉锚点。

关于强化学习阶段，去掉这一阶段后，上肢误差从93.83毫米升至101.82毫米。单看差距似乎不大，但在实际机器人操作中，七八毫米的精度提升足以区分"稳健完成任务"和"偶尔失误"的差距。而一旦改用均方误差作为强化学习的奖励信号，误差飙升至795.24毫米，比完全不做强化学习还糟糕得多——这一现象有力印证了奖励函数设计的重要性。

---

七、实际应用：从实验室到真实机器人

研究的最终价值要在现实中接受检验。研究团队将TAIHRI部署在一台双臂机器人上，搭配安装在机器人身上的Orbbec Femto Bolt摄像头（720p分辨率），开发了一套完整的闭环控制流程。

整个流程的运作方式是：用户发出一条自然语言指令，比如"和他握手"；摄像头拍摄当前画面；TAIHRI结合画面和指令，输出任务关键的三维关节坐标；这些坐标被传递给运动规划系统，通过逆运动学计算（一种根据目标位置反推各关节应该转到什么角度的计算方法）控制机器人的手臂运动。整个过程形成感知-行动的闭环，机器人可以根据人的动态变化持续更新运动目标。

研究团队用这套系统演示了握手、肩部按摩等多种交互任务，结果显示TAIHRI提供的定位结果足够稳定，机器人能够可靠地完成这些需要精确接触的动作。

TAIHRI还支持另一个有用的下游任务：全局坐标系下的人体网格恢复。传统人体重建方法给出的是以骨盆为原点的相对姿态，无法直接告诉机器人这个人的整个身体在空间中的绝对位置。TAIHRI预测的三维关节点可以作为"锚点"，将传统方法重建的人体网格平移旋转到正确的全局位置上。实验显示，使用一个到三个锚点都能显著改善对齐精度，而且使用右臂关键点作为锚点时，对右手腕位置的估计误差从一百多毫米降低到十几毫米——降幅超过了90%。

---

说到底，TAIHRI解决的是一个很具体的工程问题：让服务机器人在近距离接触人的时候，能够更准确地判断该去哪里、该够向何处。这个问题不像"机器人能不能思考"那样哲学，也不像"机器人会不会取代人类"那样宏大，但它是一切实用人机交互的基础——没有准确的空间感知，机器人再聪明也无从下手。

这项研究的贡献在于把"视觉语言模型"这种近年大热的技术方向与"精准三维定位"这个传统机器人感知问题结合在了一起，并且给出了一套完整的工程方案：数据怎么来、空间怎么表示、推理怎么设计、训练怎么优化，每个环节都有针对性的处理。代码已在GitHub的Tencent/TAIHRI仓库开放。

当然，这套系统目前也有其局限：它假定摄像头的内参是已知的，对多人同时出现在画面中的场景支持有限，在极度遮挡的情况下（比如人完全背对镜头）仍然存在较大误差。这些都是未来工作可以深入的方向。归根结底，机器人真正融入日常生活还有很长的路要走，但TAIHRI代表的这类"任务感知+精准定位"的思路，很可能是这条路上不可绕过的一个关键节点。对这一领域有兴趣的读者，可以通过arXiv编号2604.08921查阅完整论文。

---

Q&A

Q1：TAIHRI和普通的人体姿态估计技术有什么区别？

A：普通人体姿态估计技术通常是估计整个人体在"以骨盆为原点"的相对坐标系下的姿态，主要关注全身姿势是否准确。TAIHRI的不同之处在于，它直接在摄像头的真实三维空间里定位关节点，而且可以根据任务指令（比如"握手"、"扶起"）只关注最关键的几个关节，特别适合机器人近距离与人接触的场景。

Q2：TAIHRI需要什么样的硬件才能运行？

A：论文中的训练实验在4块NVIDIA H20 GPU上完成，模型本身有2亿和4亿参数两个版本。实际部署时搭配了Orbbec Femto Bolt摄像头。模型的推理对算力的具体要求论文中未详细说明，但基于Qwen3-VL的架构，配备中等水平推理GPU的机器人系统应该可以支持。

Q3：CloseHRI数据集是真实拍摄的吗？

A：CloseHRI数据集主要是合成生成的，不是真实拍摄的。团队先从真实动作捕捉数据库中获取人体动作，再用三维渲染软件生成人体法线图，最后用SDXL图像生成模型配合文字描述合成看起来逼真的照片。所有生成图像都经过严格质量过滤，最终保留超过一百万张高质量样本用于训练。