news 2026/4/16 17:08:03

【无标题】解析《采用非对称自玩实现强健多机器人群集的深度强化学习方法》

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【无标题】解析《采用非对称自玩实现强健多机器人群集的深度强化学习方法》

《A Deep Reinforcement Learning Approach Using Asymmetric Self-Play for Robust Multirobot Flocking》2025年发表在IEEE Transactions on Industrial Informatics

一、文章背景

多机器人集群控制(简单说就是让一群机器人协同移动)在物流、搜救这些实际场景里很有用,核心是让机器人凑在一起不碰撞,还能顺利到达目标地。但现实环境没那么简单,不仅有固定障碍物,还有会主动干扰的 “敌对机器人”(比如故意撞过来破坏队形),而且机器人之间还不能通信,只能靠自己看到的局部信息做决策。

现有方法存在明显局限:传统集群控制方法(如人工势场法、模型预测控制)依赖对环境和智能体的精确、全面建模,导致实际应用成本高,在复杂动态场景中可行性受限,无法应对未预定义的对抗性干扰;近年来兴起的深度强化学习(DRL)方法虽凭借强特征提取和决策能力成为替代方案,但现有 DRL-based 集群框架大多仅能处理静态障碍物或行为固定、路径简单的动态障碍物,缺乏对环境不确定性的鲁棒性,且难以扩展到任意数量的机器人集群,未充分考虑对抗性环境中 “智能体 - 干扰体” 的动态交互,策略泛化能力不足。

为了解决传统方法的不足 文章提出来了基于不对称自玩 的 DRL 框架,核心思路就是让机器人在对抗中练本事:

用不对称自玩:让集群机器人和可学习的敌对干扰体一起训练,干扰体越练越聪明,机器人也能跟着提升应对复杂干扰的能力,比单纯面对固定规则的干扰更有效。

分两阶段训练:第一阶段让两者同步练,积累不同水平的干扰策略;第二阶段让机器人对着这些积累的干扰策略再练,提升泛化能力,避免只会应对一种干扰。

加辅助训练模块:让机器人学会预测下一步的环境变化,减少对未知环境的迷茫,提升适应力。

用注意力机制:不管机器人数量多少,都能快速聚焦关键信息(比如哪个队友近、哪个干扰体威胁大),解决了机器人数量变化带来的适配问题。

二、核心方案

文章的核心技术方案是ASFC(Asymmetric Self-play-empowered Flocking Control)框架,基于深度强化学习(DRL),融合不对称自玩、注意力机制和辅助训练模块,针对性解决动态对抗环境下的多机器人集群控制问题。

ASFC 遵循 “集中式训练、分布式执行” 范式,核心目标是让无通信能力的机器人仅通过局部观测,在静态障碍物 + 动态对抗干扰体的环境中,实现 “避碰、队形保持、高效抵达目标” 三大任务。技术方案围绕 “提升鲁棒性、泛化性、扩展性” 展开,分为五大核心模块。

1)两阶段不对称自玩训练

通过 “机器人与可学习干扰体的对抗训练” 提升策略智能,分两阶段实现鲁棒性与泛化性的双重优化:

设计目的:让机器人在 “不断升级的对抗压力” 中学习,避免仅适应单一干扰模式,同时积累多样化干扰策略以提升泛化能力。

阶段 1:同步训练(干扰体智能提升)

机器人集群与干扰体集群同步训练,两者目标对立:机器人需保持队形避碰,干扰体主动撞击机器人以破坏集群。

每间隔个训练回合,将当前干扰体的网络参数(策略)保存到 “干扰体模型池 W”,积累不同智能水平的干扰策略。

训练环境:15m×15m 场景,5 个机器人 + 5 个干扰体 + 2 个静态障碍物,机器人初始化于边缘区域,目标为场景中心对称点。

阶段 2:对抗模型池(泛化能力强化)

机器人不再与实时训练的干扰体对抗,而是从模型池 W 中采样干扰体策略组成 “对抗团队” 进行训练。

采样机制:① 智能体级采样:个干扰体可组合种干扰团队为模型池数量,提升环境多样性;② 加权采样:根据干扰体模型的历史累积奖励调整采样概率,优先选择更强的干扰策略,实现 “课程学习”(从易到难)。

训练环境:扩展为 25m×25m 场景,8 个机器人 + 6 个干扰体 + 5 个静态障碍物,进一步提升任务复杂度。

核心优势:相比单一阶段训练,机器人能适应 “不同强度、不同模式” 的动态干扰,泛化能力显著提升。

2) 动作与价值学习(网络核心架构)

采用双注意力机制解决 “机器人数量扩展性” 和 “局部 - 全局信息融合” 问题,分为动作生成(演员网络)和价值评估(评论家网络)两部分:

设计目的:让框架适配任意数量的机器人集群,同时让机器人在无通信条件下,间接利用全局信息优化决策。

(1)动作学习(特征级注意力)

输入:机器人的局部观测(自身状态、目标相对位置、三通道局部网格图、周边机器人 / 干扰体状态)。

具体流程:

特征嵌入:通过卷积神经网络(CNN)处理局部网格图 ,多层感知机(MLP)处理向量型输入,拼接得到 “自身特征”。

特征级注意力聚合:以为查询(Query),对周边机器人特征和干扰体特征计算注意力权重,聚合关键信息:

其中是归一化注意力权重(通过 Softmax 计算),用于聚焦 “威胁最大的干扰体” 或 “距离最近的队友”。

动作生成:将拼接为特征,输入两层 MLP 组成的演员网络,通过 Softmax 采样离散动作(线性 + 角速度组合)。

干扰体动作学习:网络架构与机器人一致,但观测范围为全局(可获取所有机器人 / 干扰体状态),动作空间略调整(线性速度上限 0.38m/s,机器人为 0.5m/s)。

(2)价值学习(智能体级注意力)

设计目的:在执行阶段无通信,但训练阶段让机器人聚合全局信息,提升价值评估的准确性。

具体流程:

局部总特征:机器人 i 的局部特征与集群特征(自身与集群中心的相对距离 / 角度)拼接为

全局信息聚合:通过智能体级注意力计算其他机器人 j 的特征重要性,聚合全局信息:

价值生成:将拼接,输入两层 MLP 组成的评论家网络,输出状态价值

优化算法:采用 PPO(Proximal Policy Optimization)算法,分别优化演员网络和评论家网络(学习率)。

3)辅助训练模块(环境动态学习)

设计目的:让机器人学习环境状态转移规律,减少对未知环境的不确定性,提升适应能力。

核心功能:基于当前局部特征和执行动作,预测下一时刻的局部网格图

实现方式:

解码器结构:由 MLP + 多层反卷积层组成,输入为,输出为预测的三通道网格图(尺寸与输入一致)。

监督信号:由模拟器提供真实的下一时刻网格图,采用交叉熵损失优化预测精度:

总损失融合:将辅助损失与 PPO 的策略损失、价值损失、熵损失加权融合,联合优化:

4)奖励函数设计(任务导向优化)

通过差异化奖励引导机器人与干扰体的行为,确保任务目标达成:

(1)机器人奖励函数

目标抵达奖励:鼓励机器人向目标移动,抵达目标区域(距离)获得固定奖励;未抵达时,根据距离变化给予增量奖励

队形保持奖励:仅当机器人与集群中心距离 <且航向偏差 <时,给予组合奖励(中心保持奖励+ 航向一致奖励)。

避碰惩罚:碰撞时给予强惩罚;与干扰体距离 <或与障碍物距离 <时,按距离平方的倒数给予梯度惩罚。

(2)干扰体奖励函数

核心逻辑:鼓励干扰体主动接近并碰撞机器人,同时避免自身碰撞无关物体。

5)观察与动作空间设计(基础环境交互)

(1)观察空间

机器人观察(局部范围):自身状态(线性 / 角速度)、目标相对位置(距离 / 角度)、三通道局部网格图(近 3 个时刻,分别标记自由空间 / 静态障碍物 / 机器人 / 干扰体)、周边机器人 / 干扰体的相对状态(距离 / 角度 / 航向差)。

干扰体观察(全局范围):自身状态、全局网格图、所有机器人 / 干扰体的全局状态,观测维度高于机器人。

(2)动作空间

离散化设计:动作由 “线性速度 + 角速度” 组合而成,共 36 种可选动作。

机器人:线性速度 {0, 0.15, 0.3, 0.5} m/s,角速度 {-2, -1.2, -0.8, -0.3, 0, 0.3, 0.8, 1.2, 2} rad/s。

干扰体:线性速度 {0, 0.15, 0.3, 0.38} m/s,角速度与机器人一致。

三、实验结果

以下为论文中的实验图表

实验结果中的ASFC的采样行为还证明了机器人能够在保持预期群聚行为的同时,避开各种干扰体的影响。

这是ASFC和基线方法在三种不同场景中的表现 体现了ASFC更优越的泛化能力

四、总结

论文主要提出两阶段不对称自玩范式提升鲁棒性,设计双注意力机制保障扩展性,通过辅助模块降低环境不确定性,且经仿真与物理实验验证了框架的优越性。

论文采用方法达到了以下效果:

避碰能力强:能躲开固定障碍物和主动干扰的敌对机器人;

队形稳:能保持集群中心、和队友方向一致;

效率高:少走弯路,快速到达目标地;

适配性好:不管机器人数量怎么变都能用;

泛化性强:面对不同类型的干扰(随机动、有策略动等)都能应对,还能在真实机器人上落地使用,不是只停留在模拟里。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 14:29:42

5步掌握Ultralytics YOLO终极灰度检测方案

5步掌握Ultralytics YOLO终极灰度检测方案 【免费下载链接】ultralytics ultralytics - 提供 YOLOv8 模型&#xff0c;用于目标检测、图像分割、姿态估计和图像分类&#xff0c;适合机器学习和计算机视觉领域的开发者。 项目地址: https://gitcode.com/GitHub_Trending/ul/ul…

作者头像 李华
网站建设 2026/4/16 3:04:14

终极指南:ML Visuals科研绘图神器全解析

终极指南&#xff1a;ML Visuals科研绘图神器全解析 【免费下载链接】ml-visuals &#x1f3a8; ML Visuals contains figures and templates which you can reuse and customize to improve your scientific writing. 项目地址: https://gitcode.com/gh_mirrors/ml/ml-visua…

作者头像 李华
网站建设 2026/4/15 10:32:52

Mitsuba-Blender渲染插件:解决专业渲染痛点的完整方案

还在为Blender内置渲染器的物理精度不足而烦恼吗&#xff1f;Mitsuba-Blender插件为你提供了完美的解决方案。这款强大的集成工具将学术界公认的物理渲染器Mitsuba无缝融入Blender环境&#xff0c;让艺术家和研究人员都能享受到最前沿的渲染技术。&#x1f3af; 【免费下载链接…

作者头像 李华
网站建设 2026/4/16 10:52:57

SpringBoot--Redis基础知识

SpringBoot–Redis基础知识 文章目录 SpringBoot--Redis基础知识1.Redis简介2.Redis能做什么3.Redis安装&#xff08;Windows系统&#xff09;3.1启动Redis3.2修改密码 4.SpringBoot项目中使用Redis4.1配置Redis4.2使用Spring封装的RedisTemplate操作redis4.2.1操作字符串 opsF…

作者头像 李华
网站建设 2026/4/16 16:11:48

如何快速掌握PT助手Plus:面向新手的终极下载指南

如何快速掌握PT助手Plus&#xff1a;面向新手的终极下载指南 【免费下载链接】PT-Plugin-Plus PT 助手 Plus&#xff0c;为 Microsoft Edge、Google Chrome、Firefox 浏览器插件&#xff08;Web Extensions&#xff09;&#xff0c;主要用于辅助下载 PT 站的种子。 项目地址:…

作者头像 李华