news 2026/4/16 14:30:58

IEEE RAL 2026 | 西工大 奥克兰大学提出 RewardRRT:奖励机制 + 卡尔曼滤波,窄域多自由度机器人路径规划 SOTA

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
IEEE RAL 2026 | 西工大 奥克兰大学提出 RewardRRT:奖励机制 + 卡尔曼滤波,窄域多自由度机器人路径规划 SOTA

点击下方“大模型与具身智能”,关注我们

机器人在狭窄空间里“走位”有多难?想象一下,21个自由度的仿人机器人要在堆满障碍物的室内摘苹果、在工业管道里检测缺陷,从初始位置到目标位置,每一步都得避开碰撞,还要快、准、稳——这背后的路径规划,一直是机器人领域的老大难问题。

最近有研究团队提出了一款叫RewardRRT的全新路径规划算法,专门攻克狭窄环境下多自由度机器人的路径规划难题,不仅在仿真中把规划速度提升了8.18%~38.45%,平均规划成功率更是飙到88.25%,还在真实的苹果采摘实验中完美落地!今天就带大家扒一扒这个超实用的算法~

先来看核心的算法总体结构图(图1),这张图能帮我们快速看懂RewardRRT的核心逻辑:它把RRT算法的采样树当成“智能体”,先用奖励函数给每个采样状态打分,再靠卡尔曼滤波预测奖励变化,动态调整采样概率,最后根据预测的奖励值决定优先扩展哪棵树——不是传统的交替扩展,而是盯着奖励低的树重点“攻坚”,从根上提升探索效率。

论文信息

题目: RewardRRT: Path Planning for Multi-Degree-of-Freedom Robots in Narrow Environments
奖励RRT:面向狭窄环境中多自由度机器人的路径规划算法
作者:Qinhu Chen, Wenqiang Wang, Zeming Fan, Meilin Kang, Chuan Yu, Ho Seok Ahn

为啥传统算法在狭窄环境里不好使?

先聊聊痛点:狭窄环境里障碍物多,机器人关节又多(比如实验里的21自由度轮式仿人机器人),传统路径规划算法要么“瞎采样”,在无效区域浪费时间;要么采样概率固定,没法适应环境变化;要么双向扩展树时盲目交替,收敛慢得离谱。

就拿OMPL库中表现最好的算法来说,在狭窄场景下成功率也就58.5%,规划速度还慢,根本满足不了实际应用的需求。而RewardRRT就是冲着这些痛点来的,核心做了4件大事:

1. 给采样状态“发奖励”,再也不瞎探索

RewardRRT最核心的创新,就是给每个采样的机器人状态设计了一套“动态奖励机制”——不是靠死板的局部启发式,而是用全局的奖励信号引导探索方向。

简单说,每个采样点的“奖励分”怎么算?离目标位置越近,奖励越高;如果碰到障碍物(自碰撞或碰环境),直接扣大分;还加了“遗忘因子”,避免算法陷在局部最优里出不来。而且还设置了奖励上下限,防止个别极端采样点把整体判断带偏。

有了这个奖励机制,算法就像有了“导航仪”,不用在满是障碍物的狭窄空间里乱撞,每一次采样都朝着“高奖励”的目标位置走,探索效率直接拉满。

2. 动态调整采样概率,比“固定值”聪明多了

传统RRT算法常用固定的偏置采样概率(比如OMPL默认的0.05),但狭窄环境里,固定概率要么太保守、要么太激进。

RewardRRT用了卡尔曼滤波来解决这个问题:它把采样树的累积奖励、奖励增量当成“状态”,用卡尔曼滤波预测这些状态的变化,再通过Sigmoid函数把预测结果转换成动态的采样偏置概率。而且为了保证算法的完备性,把奖励引导采样的最大概率限制在0.9,留10%的随机采样兜底,既聪明又稳妥。

实验也证明,这种动态概率比固定概率的成功率高一大截(看图4),尤其是在工业管道这种超窄场景里,优势特别明显。

3. 不搞“平均主义”,树扩展只盯“弱势方”

传统双向RRT算法是“你扩一下、我扩一下”的交替扩展模式,不管哪棵树离目标近、哪棵树探索效率低,都一视同仁。

RewardRRT直接打破这种模式:先用卡尔曼滤波预测两棵树(从初始点出发的树、从目标点出发的树)的累积奖励,谁的预测奖励低,就优先扩展谁。这种“靶向扩展”思路,让算法能集中精力补短板,收敛速度直接起飞。

4. 环境建模更高效,适配多自由度机器人

要规划路径,先得把环境摸清楚。研究团队用八叉树结构处理点云数据(看图2),既能高效做碰撞检测,又能减少数据存储,完美适配21自由度机器人的复杂状态空间——不管是单臂、双臂操作,还是头部、腰部、移动平台的协同,都能覆盖到。

图2

实测效果有多顶?数据说话!

研究团队在4个典型狭窄场景里做了测试:室内服务、医疗测试、室内温室采摘、工业管道缺陷检测(全在图2里),还对比了OMPL库中31种基于采样的算法,最大规划时间设为5秒,每个场景测50次,结果直接碾压:

规划速度:场景1(室内服务)平均规划时间0.4146秒,比OMPL最优算法快38.45%;场景2(医疗测试)快8.18%,场景3(温室采摘)快9.88%,场景4(工业管道)快14.98%;

成功率:平均88.25%,比OMPL最优的BiTRRT(58.5%)高出29.75%;

探索效率:同样的任务,RewardRRT探索的状态数比RRTConnect少50%以上,甚至在工业管道场景里少了95%~96%,少走弯路就是省时间!

更关键的是,算法还在真实场景中落地了!团队搭建了室内苹果采摘环境,机器人先用摄像头定位苹果,再用RewardRRT规划路径,最后精准控制左臂、腰部和移动平台,成功完成采摘(看图3)——从理论到实践,一步到位。

图3

最后再放一张动态概率vs固定概率的对比图(图4),能清晰看到动态概率在成功率和整体性能上的优势,尤其是在复杂的场景4里,差距一眼就能看出来。

总结&未来展望

RewardRRT的核心思路,就是把强化学习的奖励机制和经典的RRT算法结合,用卡尔曼滤波做动态调整,用非对称扩展提收敛速度——没有复杂的模型训练,却解决了狭窄环境下的大问题。

当然算法也还有提升空间,比如目前的奖励只考虑了距离,没兼顾轨迹平滑度、能量消耗这些;在动态环境、多机器人场景下的适配性也还需要验证。不过研究团队已经规划了后续方向:优化奖励结构、尝试分层设计、拓展到动态场景,相信后续会更厉害!

总的来说,这款算法让多自由度机器人在狭窄环境里的“走位”更丝滑了,不管是室内服务、农业采摘还是工业检测,都有实实在在的应用价值——以后机器人在复杂环境里干活,再也不用“磕磕绊绊”啦~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 21:42:47

强化学习框架下的政策真空期:本周五非农“爽约”下AI驱动的宏观经济指标替代方案评估

摘要:本文通过分析美劳工统计局因“技术性停摆”导致2月6日的非农就业报告延迟发布这一事件,结合美当前宏观经济数据与劳动力市场表现,深入剖析非农数据缺席引发的连锁反应、经济信号矛盾、前瞻解读难题以及市场临时应对策略。美劳工统计局于…

作者头像 李华
网站建设 2026/4/13 4:25:18

Wijmo管理 JavaScript 应用程序中的混乱数据

管理 JavaScript 应用程序中的混乱数据2026年2月2日使用 Wijmo 的 JavaScript DataGrid 将杂乱的数据转换为清晰、一致且易于处理的信息。Wijmo 是一套先进的 JavaScript UI 控件集合,包含 100 多个高性能控件,专为现代企业应用程序而设计。Wijmo 兼顾速…

作者头像 李华
网站建设 2026/4/10 17:28:37

能力解耦:像瑞幸卖咖啡一样卖SaaS

《ToB深水区的生存法则》 第二模块:加固船体——关于“系统”的内功心法(6/12) 朋友,又见面了。 上回咱们聊完“治理内耗”,老张回去挺当回事,搞了匿名吐槽,开了清淤会,团队里的“熵”算是降下来一点,至少扯皮少了,信息也透明了些。他挺高兴,觉得船体结实了不少。 …

作者头像 李华
网站建设 2026/4/15 22:32:30

U-Boot 核心作用与核心知识点

一、核心作用(精准提炼) 硬件初始化:上电后优先初始化 DDR、GPIO、EMMC/SD、网络等关键外设,为 Linux 内核提供可运行的硬件环境(裸机层核心工作)。内核引导:从 EMMC/SD 卡 / 网络等介质加载 L…

作者头像 李华
网站建设 2026/4/11 18:41:18

端口保护电路简略

一个完整的、可直接用于PCB设计的带器件原理图,包含详细的元件型号、参数和连接方式。 🛡️ 完整模拟输入保护电路原理图(带具体器件) ┌──────────────────────────────────────────…

作者头像 李华