基于 PPO 策略的强化学习运动轨迹规划
摘要
本文介绍一种基于 Frenet 坐标系采样规划器与强化学习相结合的混合轨迹规划方法。该方法并不让强化学习智能体直接输出转向角或加速度,而是让智能体动态调节解析轨迹规划器中的成本权重,从而在保留传统规划器稳定性、可解释性与安全约束能力的同时,引入强化学习对复杂交通场景的自适应决策能力。实验结果表明,该方法在多种场景下可有效降低碰撞、抑制风险并提升到达目标的成功率。
0 阅读指引与要点
文档目标:本文档用于说明一种PPO + Frenet 解析轨迹规划器的混合运动规划方案,重点解释其规划器结构、PPO 优化目标、观测空间、动作空间、奖励设计以及实验表现。
- 核心目标:通过强化学习调节轨迹成本权重,提升传统采样规划器在复杂动态场景中的适应性、风险控制能力与任务成功率。
- 关键组件:
- 解析轨迹规划器:在 Frenet 坐标系下采样候选轨迹并进行可行性、成本和碰撞检查。
- PPO / Recurrent PPO:利用裁剪策略更新实现稳定训练,并结合 LSTM 处理时序信息。
- 增强观测空间:不仅包含自车、目标和周围车辆信息,还包含轨迹集合统计特征与成本分布特征。
- 动作空间:动作并非直接控制车辆,而是调节各成本项权重。
- 混合奖励系统:同时考虑成功到达、碰撞惩罚、无解惩罚、风险抑制、速度保持与参考路径跟踪。
- 推荐阅读路径:
- 第 1 节(引言):先理解为什么纯解析方法和纯强化学习方法都存在局限。
- 第 3 节(方法):重点阅读,理解 Frenet 规划器与 PPO 如何协同工作。
- 第 4 节(结果与分析):重点关注风险控制、驾驶行为适应性和成功率提升。
- 第 5-6 节(讨论与结论):把握该方法的价值、边界与未来扩展空间。
- 实践提示:
- PPO 在这里学习的是“规划偏好”而不是“直接控制”,这是本方法最关键的设计思想。
- 奖励函数设计直接决定策略是否更保守、更平顺或更激进。
- 成本权重上下界与更新范围会显著影响训练稳定性与在线行为波动。
- 如果扩展到其他算法,GRPO、A3C、SAC、TRPO等也可以复用这类“强化学习调规划器”的总体框架。
与项目代码的对应:
- 训练入口→
train.py - 执行入口→
execute.py - 环境配置→
frenet_rl/gym_environment/configs.yaml - 环境主逻辑→
frenet_rl/gym_environment/environment/agent_env.py - 观测构造→
frenet_rl/gym_environment/observation/ - 奖励构造→
frenet_rl/gym_environment/reward/ - PPO 超参数→
frenet_rl/hyperparams/ppo2.yml
一、引言
自动驾驶在真实道路环境中的落地面临大量挑战,尤其体现在复杂城市路口、不可预测交通参与者行为以及新环境下的在线决策。这些问题要求运动规划算法同时具备高安全性、强泛化性与实时适应能力。
传统的解析规划方法在稳定性、可解释性和安全约束集成方面具有明显优势,但其性能往往依赖大量人工调参。在不同场景中,即便是微小的参数变化,也可能显著改变车辆行为,因此调参过程通常低效、昂贵且难以扩展。
另一方面,强化学习在复杂决策任务中展现出很强潜力,但在自动驾驶轨迹规划场景下,纯强化学习方法常常面临训练不稳定、样本效率不足、场景泛化能力有限以及可解释性较弱的问题。尤其在复杂交互场景中,纯 RL 模型可能需要很长训练时间,且部署前还需要额外的安全验证。
因此,本文提出一种两阶段混合规划思路:由强化学习智能体为解析轨迹规划器提供动态信息,解析规划器仍负责候选轨迹生成、约束检查和最终轨迹筛选。该方法试图结合两类方法的优势:
- 解析规划器提供稳定、可控、可解释的轨迹生成框架。
- 强化学习智能体提供场景相关、时变的参数调整能力。
本文的主要贡献可概括为以下两点:
- 提出一种混合运动规划方法:在 Frenet 坐标系下融合环境信息、预测信息与强化学习权重调节机制,以提升轨迹规划质量。
- 对方法进行系统分析:从风险、安全性、成功率、行为适应性与执行时间等角度评估该方法在多场景中的表现。
二、相关调研
自动驾驶运动规划长期以来一直是研究热点,现有方法大致可以分为以下几类:
- 基于图搜索的方法:通过节点和边构成的结构化图寻找可行路径。
- 基于采样的方法:生成大量候选轨迹并从中筛选最优轨迹。
- 基于优化的方法:在各种约束和目标下求解最优轨迹。
- 基于学习的方法:利用机器学习或强化学习直接学习决策或控制策略。
现有许多学习方法直接学习转向、速度或加速度控制,通常针对某些特定场景进行训练,例如高速公路变道或简单交互决策。这类方法虽然在局部任务上取得一定进展,但在更复杂场景中的成功率、泛化能力和安全可控性往往仍不足。
也有研究尝试将人类反馈、迭代学习或逆强化学习引入运动规划,用于学习更自然或更安全的驾驶行为。但这些方法往往仍存在以下问题:
- 对复杂公共道路环境覆盖不足
- 对其他交通参与者预测不确定性的考虑有限
- 缺乏与成熟解析规划器的深度融合
- 在高维状态空间中的收敛速度较慢
因此,当前仍缺少一种能够同时满足以下目标的混合方法:
- 高成功率
- 较强实时性
- 良好可解释性
- 便于引入安全机制
- 能够适应复杂动态交互场景
本文提出的 PPO + Frenet 混合规划器正是围绕这一空缺展开。
三、方法
本节介绍基于采样的 Frenet 轨迹规划器与PPO 强化学习过程如何结合,形成混合轨迹规划系统。
A. 基于采样的运动规划器
本文使用的解析轨迹规划器基于 Frenet 坐标系中的采样式轨迹规划思想。在每个时间步,规划器大致经历以下几个阶段:
车辆状态更新
结合自车状态、环境信息与预测结果,更新当前时刻在 Frenet 坐标系中的状态表达。轨迹采样
基于时间、速度与横向偏移等采样指标,生成多组候选轨迹方案。轨迹运动学检查
利用车辆单轨模型及车辆参数,对候选轨迹进行运动学可行性检查。轨迹成本计算
对每条候选轨迹计算多种成本项,例如:- 碰撞概率成本
- 横向 / 纵向急动度成本
- 到参考路径的距离成本
- 速度偏差成本
轨迹碰撞检查与筛选
在按成本排序后,对优先级更高的轨迹做碰撞验证,选择第一条无碰撞且可行的最优轨迹更新车辆状态。
该轨迹规划过程具有两个重要特点:
- 优点 1:天然具备较强的可解释性与安全约束整合能力。
- 优点 2:可以把强化学习输出映射为成本权重调节量,而无需替换底层规划器结构。
规划器每次生成的轨迹通常覆盖约3 s规划时域,仿真步长约为0.1 s。
B. 强化学习过程
在该系统中,强化学习模块的任务并不是直接生成控制命令,而是优化解析规划器的轨迹选择偏好。具体来说,智能体通过观察当前场景及候选轨迹统计信息,动态调节规划器中不同成本项的权重。
实现层面使用了gymnasium、stable-baselines3及其循环策略扩展,训练算法采用近端策略优化(PPO),并结合LSTM处理时序依赖。
PPO 的核心目标函数如下:
L C L I P ( θ ) = E ^ t [ min ( r t ( θ ) A ^ t , clip ( r t ( θ ) , 1 − ϵ , 1 + ϵ ) A ^ t ) ] L^{CLIP}(\theta) = \hat{\mathbb{E}}_t \left[ \min \left( r_t(\theta)\hat{A}_t,\; \operatorname{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t \right) \right]LCLIP(θ)=E^t[min(rt(θ)A^t,clip(rt(θ),1−ϵ,1+ϵ)A^t)]
公式说明:
- θ \thetaθ:当前策略参数
- r t ( θ ) r_t(\theta)rt(θ):新旧策略在动作概率上的比值
- A ^ t \hat{A}_tA^t:时间步t tt的优势估计
- ϵ \epsilonϵ:裁剪系数,用于限制过大的策略更新
核心作用:通过裁剪机制抑制过大的策略变化,从而兼顾训练稳定性与策略改进效率。
本文进一步使用Recurrent PPO / MlpLstmPolicy,其核心思想是:
- LSTM 状态更新:在每个时间步结合当前输入、上一时刻隐藏状态和单元状态,形成新的时序特征表示。
- 策略与价值联合估计:利用更新后的隐藏状态,同时估计动作分布与状态价值。
这一设计特别适合:
- 部分可观测环境
- 动态交互场景
- 需要历史信息辅助判断风险趋势的情形
C. 观测空间设计
观测空间由多类信息共同构成,不仅包含传统的车辆与目标状态,还包含解析规划器生成的候选轨迹统计特征。其主要类别如下:
| 类别 | 主要观测内容 |
|---|---|
| 自车信息 | 速度、加速度、急动度、转向、航向、偏航、到参考路径的距离 |
| 目标信息 | 到目标距离、剩余时间、目标达成状态、超时状态、目标速度 |
| 周围环境 | 相邻车道、车道方向、障碍物信息 |
| 轨迹集合信息 | 可行轨迹比例、轨迹有效性、自车风险、第三方风险 |
| 成本信息 | 最优轨迹成本、所有轨迹成本的均值与方差、碰撞概率成本 |
关键特点:与直接控制型 RL 系统不同,这里强化学习智能体能看到由解析规划器提前计算出的轨迹束信息。这让策略不只基于单一状态做反应,而是能够根据候选轨迹整体分布调整规划偏好。
D. 动作空间设计
本文中智能体动作的物理意义是:调整轨迹规划器中各个成本项的权重。对每个成本项i ii,在时间步t tt的动作可以表述为:
ω i min ≤ ω i p r e v + ω i a c t i o n ≤ ω i max \omega_i^{\min} \le \omega_i^{prev} + \omega_i^{action} \le \omega_i^{\max}ωimin≤ωiprev+ωiaction≤ωimax
其中:
- ω i p r e v \omega_i^{prev}ωiprev:上一时刻该成本项的权重
- ω i a c t i o n \omega_i^{action}ωiaction:当前动作带来的增量
- ω i min , ω i max \omega_i^{\min}, \omega_i^{\max}ωimin,ωimax:该成本项允许的最小与最大边界
关键意义:
- 强化学习不是替代规划器,而是在线调参
- 动作空间可保持较低维,训练更稳定
- 规划器原有的可行性检查、碰撞检查和约束体系仍然有效
每次执行后,相关成本项会回到默认值或受配置规则约束,以避免权重失控累积。
E. 奖励设计
奖励设计直接决定智能体会把车辆行为推向何种风格,因此是整个系统中最关键的部分之一。本文采用终止奖励 + 过程奖励构成的混合奖励系统。
终止类奖励 / 惩罚主要反映任务结果:
- 到达目标
- 提前到达目标
- 延迟到达目标
- 碰撞惩罚
- 无可行解惩罚
- 场景超时惩罚
过程类奖励 / 惩罚用于塑造驾驶行为:
- 到参考路径的距离
- 与目标速度的差异
- 到目标的纵向推进量
- 当前动作与默认成本设置的差异
- 自车风险
- 障碍物风险
该设计试图同时实现以下目标:
- 尽量避免碰撞
- 减少风险暴露
- 保持合理车速
- 提升舒适性与轨迹平顺性
- 保证朝目标持续推进
实践上需要注意:如果对风险抑制奖励设置过强,车辆可能学会“过度保守”,甚至在部分场景中倾向于停车。因此,奖励设计必须在安全性与通行效率之间取得平衡。
四、结果与分析
本节从训练环境、风险控制、行为适应性、场景成功率与执行时间等角度,对混合规划器进行分析,并与默认解析规划器进行对比。
A. 环境与训练设置
训练主要使用丁字路口场景,因为这类场景包含复杂且关键的车辆交互。数据集划分如下:
- 训练集:75%
- 验证集:15%
- 测试集:10%
文中给出的 PPO 关键超参数包括:
- 学习率:0.0003
- 裁剪系数:0.1
- 折扣因子γ \gammaγ:0.99
- GAE 参数λ \lambdaλ:0.97
- 批量大小:2352
- 训练轮数:5
- 熵系数:0.01
在文中实验设置下,总训练规模约为700 万时间步,训练在200 万到 300 万步后开始收敛,完整训练时长约24 小时。
B. 风险感知轨迹规划
本文特别关注风险控制能力。轨迹风险定义为:
R ( T ) = max ( p ( T ) H ( T ) ) R(\mathcal{T}) = \max \left( p(\mathcal{T}) H(\mathcal{T}) \right)R(T)=max(p(T)H(T))
其中:
- p ( T ) p(\mathcal{T})p(T):轨迹对应的碰撞概率
- H ( T ) H(\mathcal{T})H(T):轨迹对应的潜在危害
关键结论:
- 与默认规划器相比,混合规划器在多个场景中的自车风险显著降低
- 第三方道路参与者风险也同步下降
- 智能体能够在高风险情况真正发生前,依据环境与轨迹集合信息提前识别风险并主动减速
这说明强化学习在这里学到的并不仅仅是“避撞结果”,而是更接近一种风险前瞻性调节能力。
C. 智能体驾驶行为的适应性
与固定参数的默认规划器相比,混合规划器的一个突出优势是:可以在运行时动态改变驾驶行为。
在对向来车、左转冲突等场景中,混合规划器通常表现为:
- 更早制动
- 更贴近参考路径
- 对碰撞概率权重进行连续上调
- 主动降低进入高风险区域时的速度
而默认规划器则可能由于固定参数设置,在某些边界场景下表现出:
- 接近速度过快
- 对风险响应过晚
- 需要手动重新调参才能避免碰撞
核心结论:混合方法能够在不手工改参数的前提下,通过学习到的权重调节策略,在复杂场景中表现出更合适的驾驶风格。
D. 场景性能评估
在更大规模场景评估中,混合规划器与默认规划器进行了对比。主要观察包括:
- 默认规划器在部分参数设置下虽然成功率较高,但仍然存在碰撞
- 碰撞概率成本设置过低时,车辆会表现得过于激进
- 碰撞概率成本设置过高时,车辆又可能表现得过于保守
- 混合规划器则能够通过学习形成更灵活的动态权衡
关键结论:在未见过的测试场景中,混合规划器依然能保持较高稳定性,并显著降低碰撞发生。
此外,从驾驶行为统计看,混合规划器通常表现出:
- 更低的平均速度
- 更强的转弯适应性
- 更灵活的轨迹偏移与风险调节能力
这表明策略学到的是一种场景相关的、可变的规划偏好,而非单纯固定的保守策略。
E. 执行时间评估
执行时间评估表明,该方法在引入强化学习后仍保留较强的实时潜力。文中给出的平均结果大致如下:
- RL 模型预测时间:约0.44 ms
- 轨迹束采样与成本计算时间:约15.8 ms
- 整体模型单步执行时间:约46 ms
结论:强化学习部分本身的推理开销很低,系统总耗时仍主要集中在解析规划器的轨迹生成、评估和碰撞检查流程上,因此该方法具备较好的工程可落地性。
五、讨论
实验结果说明,这种解析规划器 + 强化学习权重调节的混合方法是有效的。与纯强化学习方法相比,它具有以下优势:
- 训练更快
- 成功率更高
- 更容易保持可解释性
- 更容易集成安全机制
- 可利用已有解析规划器的工程基础
与纯解析方法相比,它又具备以下优势:
- 能够在线适应场景变化
- 可弥补固定参数设置在边界场景下的不足
- 能对预测误差或风险变化作出更柔性的调节
当然,该方法也存在一些局限:
- 如果底层规划器结构变化较大,智能体通常需要重新训练或至少部分重训练
- 奖励设计和场景选择仍然需要仔细打磨
- 动作上下界、奖励尺度和成本项设计不合理时,训练可能出现过保守或波动过大的问题
总体来看,这种混合架构展示了非常有价值的工程方向:不是让强化学习替代规划器,而是让强化学习增强规划器。
六、结论与展望
本文提出了一种面向自动驾驶轨迹规划的混合运动规划方法,通过把强化学习智能体接入 Frenet 解析规划器,实现对成本权重的动态调节,从而提升系统在复杂动态场景中的泛化能力、成功率与风险控制水平。
实验表明,该方法在保持较好实时性的同时,能够:
- 降低碰撞概率
- 降低自车与第三方风险
- 提升复杂路口场景中的轨迹选择质量
- 减少人工手动调参负担
未来工作可围绕以下方向展开:
从调成本权重扩展到调采样参数
让强化学习不只影响成本函数,也影响采样密度、采样范围和预测偏好。扩展到更多强化学习算法
当前采用的是PPO / Recurrent PPO,未来可进一步探索GRPO、A3C、SAC、TRPO等算法在该混合框架中的适用性。引入更丰富的环境表示
例如图结构环境表示、更加细致的语义地图信息与不确定性建模。提升真实部署适用性
深入研究该框架在真实车辆系统中的鲁棒性、执行效率与安全验证方式。
PPO
一句话总结:本文最重要的价值不只是“把 PPO 用到了轨迹规划里”,而是提出了一种可扩展到 PPO、GRPO 等多类强化学习算法的混合轨迹规划范式。