这项研究由清华大学深圳国际研究生院、腾讯机器人实验室(Tencent Robotics X)和鹏城实验室联合完成,论文以arXiv预印本形式发布于2026年4月10日,编号为arXiv:2604.08921。感兴趣的读者可通过该编号在arXiv平台检索完整论文。
**机器人想帮你,却找不准你的手在哪里**
假设你坐在轮椅上,一台护理机器人正要伸手扶你站起来。它的摄像头就装在自己身上,距离你只有不到一米,拍到的画面里满是你的上半身——但它能否准确判断出你的腋下、肩膀此刻在空间中的精确位置?差了十厘米,它可能会戳到你;差了二十厘米,可能根本够不着。
这个看似简单的问题,在机器人技术领域困扰了研究人员很长时间。正是为了解决这一难题,来自清华大学、腾讯机器人实验室和鹏城实验室的研究团队开发了一个名为TAIHRI的系统。这是业内首个专门为近距离人机交互场景设计的"视觉语言模型"——换句话说,它不仅能看图,还能理解人说的话,并把两者结合起来,精准定位人体上那些对当前任务最关键的位置。
研究团队将整个问题归结为一句话:机器人不需要了解你全身每一块肌肉的形状,它只需要知道"在做这件事的时候,最重要的那几个点在哪里"。这个思路看起来朴素,但实现起来却需要一套全新的技术方案。
---
一、 为什么已有的技术不够用?
在理解TAIHRI之前,有必要先说清楚现有方法面临的困境。
过去十多年里,研究人员开发了许多从单张照片重建人体姿态的技术,比如著名的SMPL系列人体模型以及基于它的各种估计方法。这些技术的共同目标是:给定一张照片,输出整个人体所有关节的三维坐标。听起来很全面,但它们几乎无一例外地使用了一种叫做"根坐标系"的评估方式——简单说,就是以人体的骨盆作为原点,描述各个关节相对于骨盆的位置。
这种方式在拍全身照的场景下很好用,就像你在相册里看一张集体合影,知道每个人的大致姿势就够了。然而机器人面对的场景完全不同:它的摄像头贴着自己的身体,距离被服务的人往往不到两米,看到的画面里可能只有对方的上半身甚至局部肢体。在这种情况下,"这个人的左手腕相对于他骨盆的位置"这个信息对机器人几乎没有意义——机器人需要的是"左手腕此刻在我(机器人)的摄像头坐标系下,距离我多远、在哪个方向"。
近些年有一些方法开始尝试引入摄像头的内参(一种描述摄像头光学特性的参数,类似于镜头的规格说明书),从而把姿态估计的结果换算到真实的三维空间里。这是一大进步,但新的问题随之出现:在近距离拍摄时,画面里的人往往是被截断的——你只能看到上半身,或者只有一只手臂。传统方法依赖对完整人体的理解来推断全身位置,一旦看不到完整的人,估计精度就会急剧下降,而且这种误差偏偏会集中体现在那些离躯干最远的部位,比如手腕、脚踝——而这些恰好是机器人最需要精确定位的地方。
研究团队在论文中展示了一个令人印象深刻的对比案例:当一个人站在离机器人约两米处时,多个当前最先进的方法对其手腕位置的估计误差高达几百毫米,有的甚至超过了九百毫米——将近一米的误差,对于任何需要实际接触的任务都是不可接受的。
---
二、 TAIHRI的核心思路:把问题想小,把精度做高
TAIHRI的解题思路可以用一个日常场景来理解。假设你是一位厨师,有人告诉你"今天要做一道红烧肉",你的注意力会自然集中在猪肉、酱油、糖和葱姜这几种核心食材上,而不是去盘点整个厨房里所有的调料。TAIHRI的任务感知逻辑与此相似——用户或机器人控制系统告诉它"要握手",它就把注意力集中到右手腕;说"要搀扶",它就去找腋下和肩膀。
为了实现这一目标,TAIHRI被构建为一个视觉语言模型,它的底座来自阿里巴巴开源的Qwen3-VL,参数量分别为2亿和4亿两个版本。这类模型的特点是能够同时处理图像和文字,并以"预测下一个词"的方式逐步生成回答——就像聊天机器人回答你的问题一样,只不过TAIHRI输出的不是文字,而是一系列代表三维空间坐标的数字标记。
研究团队在这个框架上做了几项关键设计,缺一不可。
第一项是"离散化交互空间"。直接预测精确的三维坐标对语言模型来说很困难,因为这些模型天生擅长处理离散的符号(比如文字),而不是连续的数值。研究团队的解决方案是把机器人前方的空间切成一个个小格子,就像把一个立方体蛋糕切成一千乘一千乘一千的小方块,每个方块用一个编号来代表。宽度方向、高度方向、深度方向各分一千格,任何一个位置都可以用三个零到九百九十九之间的整数来精确描述。这样,预测位置就变成了"从词汇表里选词"的问题,与语言模型的工作方式天然契合。
第二项是"统一焦距处理"。不同摄像头有不同的焦距(这个参数决定了画面的视野宽窄和透视关系),直接用不同焦距的图片训练模型会让模型很困惑。研究团队采用了一个聪明的处理方式:把所有输入图像统一缩放到对应焦距为一千的尺寸,就像把不同比例尺的地图统一换算成同一个比例尺,然后再进行分析。与此同时,他们用随机裁剪的数据增强方式来模拟不同主点偏移的情况,使模型能够适应各种摄像头配置。
第三项,也是最有新意的一项,是"先看二维、再想三维"的推理链设计。这个设计受到"思维链"技术的启发——在人工智能领域,让模型在给出最终答案之前先写出推理过程,往往能显著提升准确率,就像数学考试时要求写出解题步骤而不是直接填答案。TAIHRI在预测关节的三维坐标之前,会先预测它们在图像平面上的二维像素位置,然后再根据这些二维位置和空间深度关系推算出三维坐标。这个设计非常合理:从一张照片里找到一个人的手腕在图像上的大概位置(二维定位),比直接猜它距离摄像头有多远要容易得多;有了准确的二维位置后,再结合已知的摄像头参数推算深度,精度自然大幅提升。
---
三、 训练用的数据:从零搭建一个"近距离互动图书馆"
再好的方法也需要数据来训练。然而现有的人体姿态数据集几乎全是从远处拍摄的全身照,完全不符合机器人近距离服务场景的需求。
为此,研究团队专门构建了一个名为CloseHRI的数据集。整个制作过程分为几个阶段,有点像用积木搭建一个虚拟的人机交互训练场。
第一步,团队从AMASS这个大型动作捕捉数据库里抽取了大量真实人体动作序列,然后用Blender(一个专业的三维建模软件)把这些动作渲染成法线图——法线图是一种特殊的图像格式,记录的是物体表面每个点的朝向,看起来像是五颜六色的人形轮廓,可以精确描述人体的形态而不带任何纹理细节。在渲染时,他们把虚拟摄像机放置在距离人体零点五到三米的位置,高度和朝向随机变化,模拟真实机器人上摄像头的各种可能角度。
第二步,以这些法线图为控制信号,团队使用了SDXL(一款高质量的人工智能图像生成模型)配合各种文字描述(比如"一个穿红色衬衫的人站在客厅里")来生成看起来真实自然的照片。这些生成的照片背景各异、人物衣着多样,但身体姿态和与摄像机的空间关系是完全受控的。
第三步是质量过滤。用SAM3(一种图像分割工具)检查生成图像里人体区域与预期形态的重合程度,只保留重合度(IoU)超过0.9的高质量图像;再用VitPose(一种二维姿态估计工具)重新检测图像中的关节点位置,只保留检测误差在十五像素以内的样本。
经过这套流程,CloseHRI最终包含超过一百万张图像。加上额外引入的BEDLAMv1、BEDLAMv2和PDhuman等数据集中的近距离样本(过滤掉人体平均深度超过三米的样本),最终训练集约有一百二十万张图像。研究团队还专门为训练准备了一个包含六千多条不同表述方式的"交互指令词库",覆盖了"帮人从轮椅上站起来"、"给人按摩肩膀"、"和人握手"等各种真实场景的描述。
---
四、 强化学习:让模型从"及格"进化到"精准"
TAIHRI的训练分两个阶段完成,可以用学开车来类比。第一阶段是"教练示范、学员模仿"的有监督训练(SFT阶段):给模型看大量图片,同时告诉它正确答案应该是什么,让它学会基本的推理模式。这一阶段结束后,模型已经能给出大致合理的结果,但还不够精准。
第二阶段是"自己练习、根据反馈调整"的强化学习(RFT阶段):模型对同一张图片生成多个不同的预测结果,然后根据这些结果与正确答案的差距获得"奖励分数",得分高的预测策略会被强化,得分低的会被削弱。这个过程类似于一个棋手通过大量对弈来磨练棋感——不是死记硬背棋谱,而是通过反馈逐渐形成更好的判断。
具体来说,研究团队使用了一种叫做GRPO的强化学习算法。奖励函数的设计是一大亮点:它综合了两种信号,一是用"胡伯损失"(一种对极端误差不那么敏感的数学工具,就像裁判打分时会去掉最高分和最低分取中间值)衡量所有可见关节的平均预测误差,二是统计有多少关节的误差在一个预设阈值以内(类似"命中率")。两者加权组合后形成最终奖励,既关注整体精度,也关注极端失误的频率。
这个设计有一个重要细节:研究团队发现如果在强化学习阶段改用最简单的均方误差(MSE)作为损失函数,性能会急剧下降——均方误差对极端误差的惩罚过重,会导致模型的梯度更新出现偏差,就像教练对学员每一个小错误都严厉批评,反而让学员越来越紧张、越练越差。改用胡伯损失和命中率的组合后,模型的收敛更加稳定,最终精度也显著提升。
---
五、 实验结果:数字背后的真实差距
研究团队在两个独立的测试数据集上验证了TAIHRI的性能,分别是Harmony4D-Egocentric(包含6389帧近距离人与人互动的画面,用20台外置摄像机的多视角三角测量获取精确三维标注)和EgoBody(从中筛选了5000帧三米以内的近距离样本)。评估指标是"全局坐标系下的平均关节位置误差"(G-MPJPE),单位是毫米,这个指标不做任何对齐或修正,直接衡量预测位置与真实位置在三维空间中的欧氏距离——对机器人实际应用来说,这是最直接也最严苛的评估标准。
为了全面考察模型的任务感知能力,测试设计了四种不同的关节组合:上肢关节(双侧肩膀和双侧肘部)、下肢关节(双侧髋部和双侧膝盖)、左侧上肢(左肩、左肘、左腕)和右侧上肢(右肩、右肘、右腕)。
在Harmony4D数据集上,TAIHRI的4B版本在上肢关节的误差为93.83毫米,而目前最优秀的对比方法SAM 3D Body(基于DINOv3主干网络)的误差为124.91毫米,CameraHMR的误差更是高达167.50毫米。在左侧上肢这一项,TAIHRI达到107.81毫米,而SAM 3D Body为143.13毫米,PromptHMR为158.25毫米。这些差距在实际操作中意味着什么?简单说,TAIHRI的误差大约相当于一根手指的宽度,而部分竞争方法的误差超过了一个拳头的大小。
在EgoBody数据集上,TAIHRI同样领先——上肢误差为75.77毫米,比SAM 3D Body的89.87毫米低了约16%,比CameraHMR的94.92毫米低了约20%。
与通用大模型的比较同样说明问题。研究团队抽取了50个典型样本,让GPT-5.2、Qwen3-VL-235B-A22B-Instruct和Gemini-2.5 Pro也来做同样的测试。GPT-5.2根本不支持从单张图片预测三维坐标;Qwen3-VL虽然能给出数字,但误差高达1298.3毫米,基本没有实用价值;Gemini-2.5 Pro表现最好但误差仍有436.9毫米,是TAIHRI(97.2毫米)的四倍多。
此外,研究团队还测试了一种"先检测二维关节点再用深度估计模型推算三维坐标"的方案。具体做法是先用VitPose检测图像中的关节点位置,然后分别用Depth Anything 3和DepthLM这两种深度估计模型读取对应像素的深度值,再反投影到三维空间。尽管这类方法在通用场景下表现不错,但在近距离人机交互场景中,误差分别为352.2毫米和282.3毫米,远逊于TAIHRI。这是因为深度估计模型对图像中每个像素独立预测深度,并不理解人体的结构约束,遇到关节被遮挡或位于人体内部的情况时,估计结果就会出现系统性偏差。
---
六、 消融实验:拆开来看哪块功劳最大
研究团队还做了一系列"拆零件"的对比实验,逐个验证设计中每个环节的必要性。
关于摄像头内参的处理方式,实验显示:如果完全不给模型提供摄像头参数,误差在上肢关节上从93.83毫米猛增到425.13毫米;如果改用一种"可学习的射线嵌入"(让模型自己从数据中学习如何处理不同摄像头参数)来代替研究团队设计的焦距统一化方案,误差降至380.29毫米,有所改善但仍远不如原方案。这说明把摄像头参数以"统一焦距+图像缩放"方式注入模型的设计是精准定位的关键基础。
关于二维推理环节,如果跳过二维关节预测、直接让模型输出三维坐标,上肢误差从93.83毫米升至126.67毫米。这验证了"先定位二维再推算三维"的思路确实有效——二维预测为三维推断提供了必要的视觉锚点。
关于强化学习阶段,去掉这一阶段后,上肢误差从93.83毫米升至101.82毫米。单看差距似乎不大,但在实际机器人操作中,七八毫米的精度提升足以区分"稳健完成任务"和"偶尔失误"的差距。而一旦改用均方误差作为强化学习的奖励信号,误差飙升至795.24毫米,比完全不做强化学习还糟糕得多——这一现象有力印证了奖励函数设计的重要性。
---
七、 实际应用:从实验室到真实机器人
研究的最终价值要在现实中接受检验。研究团队将TAIHRI部署在一台双臂机器人上,搭配安装在机器人身上的Orbbec Femto Bolt摄像头(720p分辨率),开发了一套完整的闭环控制流程。
整个流程的运作方式是:用户发出一条自然语言指令,比如"和他握手";摄像头拍摄当前画面;TAIHRI结合画面和指令,输出任务关键的三维关节坐标;这些坐标被传递给运动规划系统,通过逆运动学计算(一种根据目标位置反推各关节应该转到什么角度的计算方法)控制机器人的手臂运动。整个过程形成感知-行动的闭环,机器人可以根据人的动态变化持续更新运动目标。
研究团队用这套系统演示了握手、肩部按摩等多种交互任务,结果显示TAIHRI提供的定位结果足够稳定,机器人能够可靠地完成这些需要精确接触的动作。
TAIHRI还支持另一个有用的下游任务:全局坐标系下的人体网格恢复。传统人体重建方法给出的是以骨盆为原点的相对姿态,无法直接告诉机器人这个人的整个身体在空间中的绝对位置。TAIHRI预测的三维关节点可以作为"锚点",将传统方法重建的人体网格平移旋转到正确的全局位置上。实验显示,使用一个到三个锚点都能显著改善对齐精度,而且使用右臂关键点作为锚点时,对右手腕位置的估计误差从一百多毫米降低到十几毫米——降幅超过了90%。
---
说到底,TAIHRI解决的是一个很具体的工程问题:让服务机器人在近距离接触人的时候,能够更准确地判断该去哪里、该够向何处。这个问题不像"机器人能不能思考"那样哲学,也不像"机器人会不会取代人类"那样宏大,但它是一切实用人机交互的基础——没有准确的空间感知,机器人再聪明也无从下手。
这项研究的贡献在于把"视觉语言模型"这种近年大热的技术方向与"精准三维定位"这个传统机器人感知问题结合在了一起,并且给出了一套完整的工程方案:数据怎么来、空间怎么表示、推理怎么设计、训练怎么优化,每个环节都有针对性的处理。代码已在GitHub的Tencent/TAIHRI仓库开放。
当然,这套系统目前也有其局限:它假定摄像头的内参是已知的,对多人同时出现在画面中的场景支持有限,在极度遮挡的情况下(比如人完全背对镜头)仍然存在较大误差。这些都是未来工作可以深入的方向。归根结底,机器人真正融入日常生活还有很长的路要走,但TAIHRI代表的这类"任务感知+精准定位"的思路,很可能是这条路上不可绕过的一个关键节点。对这一领域有兴趣的读者,可以通过arXiv编号2604.08921查阅完整论文。
---
Q&A
Q1:TAIHRI和普通的人体姿态估计技术有什么区别?
A:普通人体姿态估计技术通常是估计整个人体在"以骨盆为原点"的相对坐标系下的姿态,主要关注全身姿势是否准确。TAIHRI的不同之处在于,它直接在摄像头的真实三维空间里定位关节点,而且可以根据任务指令(比如"握手"、"扶起")只关注最关键的几个关节,特别适合机器人近距离与人接触的场景。
Q2:TAIHRI需要什么样的硬件才能运行?
A:论文中的训练实验在4块NVIDIA H20 GPU上完成,模型本身有2亿和4亿参数两个版本。实际部署时搭配了Orbbec Femto Bolt摄像头。模型的推理对算力的具体要求论文中未详细说明,但基于Qwen3-VL的架构,配备中等水平推理GPU的机器人系统应该可以支持。
Q3:CloseHRI数据集是真实拍摄的吗?
A:CloseHRI数据集主要是合成生成的,不是真实拍摄的。团队先从真实动作捕捉数据库中获取人体动作,再用三维渲染软件生成人体法线图,最后用SDXL图像生成模型配合文字描述合成看起来逼真的照片。所有生成图像都经过严格质量过滤,最终保留超过一百万张高质量样本用于训练。