基于 PPO 策略的决策/规划运算法-编程阁

基于 PPO 策略的强化学习运动轨迹规划

摘要

本文介绍一种基于 Frenet 坐标系采样规划器与强化学习相结合的混合轨迹规划方法。该方法并不让强化学习智能体直接输出转向角或加速度，而是让智能体动态调节解析轨迹规划器中的成本权重，从而在保留传统规划器稳定性、可解释性与安全约束能力的同时，引入强化学习对复杂交通场景的自适应决策能力。实验结果表明，该方法在多种场景下可有效降低碰撞、抑制风险并提升到达目标的成功率。

0 阅读指引与要点

文档目标：本文档用于说明一种PPO + Frenet 解析轨迹规划器的混合运动规划方案，重点解释其规划器结构、PPO 优化目标、观测空间、动作空间、奖励设计以及实验表现。

核心目标：通过强化学习调节轨迹成本权重，提升传统采样规划器在复杂动态场景中的适应性、风险控制能力与任务成功率。
关键组件：
- 解析轨迹规划器：在 Frenet 坐标系下采样候选轨迹并进行可行性、成本和碰撞检查。
- PPO / Recurrent PPO：利用裁剪策略更新实现稳定训练，并结合 LSTM 处理时序信息。
- 增强观测空间：不仅包含自车、目标和周围车辆信息，还包含轨迹集合统计特征与成本分布特征。
- 动作空间：动作并非直接控制车辆，而是调节各成本项权重。
- 混合奖励系统：同时考虑成功到达、碰撞惩罚、无解惩罚、风险抑制、速度保持与参考路径跟踪。
推荐阅读路径：
1. 第 1 节（引言）：先理解为什么纯解析方法和纯强化学习方法都存在局限。
2. 第 3 节（方法）：重点阅读，理解 Frenet 规划器与 PPO 如何协同工作。
3. 第 4 节（结果与分析）：重点关注风险控制、驾驶行为适应性和成功率提升。
4. 第 5-6 节（讨论与结论）：把握该方法的价值、边界与未来扩展空间。
实践提示：
- PPO 在这里学习的是“规划偏好”而不是“直接控制”，这是本方法最关键的设计思想。
- 奖励函数设计直接决定策略是否更保守、更平顺或更激进。
- 成本权重上下界与更新范围会显著影响训练稳定性与在线行为波动。
- 如果扩展到其他算法，GRPO、A3C、SAC、TRPO等也可以复用这类“强化学习调规划器”的总体框架。

与项目代码的对应：

训练入口→train.py
执行入口→execute.py
环境配置→frenet_rl/gym_environment/configs.yaml
环境主逻辑→frenet_rl/gym_environment/environment/agent_env.py
观测构造→frenet_rl/gym_environment/observation/
奖励构造→frenet_rl/gym_environment/reward/
PPO 超参数→frenet_rl/hyperparams/ppo2.yml

一、引言

自动驾驶在真实道路环境中的落地面临大量挑战，尤其体现在复杂城市路口、不可预测交通参与者行为以及新环境下的在线决策。这些问题要求运动规划算法同时具备高安全性、强泛化性与实时适应能力。

传统的解析规划方法在稳定性、可解释性和安全约束集成方面具有明显优势，但其性能往往依赖大量人工调参。在不同场景中，即便是微小的参数变化，也可能显著改变车辆行为，因此调参过程通常低效、昂贵且难以扩展。

另一方面，强化学习在复杂决策任务中展现出很强潜力，但在自动驾驶轨迹规划场景下，纯强化学习方法常常面临训练不稳定、样本效率不足、场景泛化能力有限以及可解释性较弱的问题。尤其在复杂交互场景中，纯 RL 模型可能需要很长训练时间，且部署前还需要额外的安全验证。

因此，本文提出一种两阶段混合规划思路：由强化学习智能体为解析轨迹规划器提供动态信息，解析规划器仍负责候选轨迹生成、约束检查和最终轨迹筛选。该方法试图结合两类方法的优势：

解析规划器提供稳定、可控、可解释的轨迹生成框架。
强化学习智能体提供场景相关、时变的参数调整能力。

本文的主要贡献可概括为以下两点：

提出一种混合运动规划方法：在 Frenet 坐标系下融合环境信息、预测信息与强化学习权重调节机制，以提升轨迹规划质量。
对方法进行系统分析：从风险、安全性、成功率、行为适应性与执行时间等角度评估该方法在多场景中的表现。

二、相关调研

自动驾驶运动规划长期以来一直是研究热点，现有方法大致可以分为以下几类：

基于图搜索的方法：通过节点和边构成的结构化图寻找可行路径。
基于采样的方法：生成大量候选轨迹并从中筛选最优轨迹。
基于优化的方法：在各种约束和目标下求解最优轨迹。
基于学习的方法：利用机器学习或强化学习直接学习决策或控制策略。

现有许多学习方法直接学习转向、速度或加速度控制，通常针对某些特定场景进行训练，例如高速公路变道或简单交互决策。这类方法虽然在局部任务上取得一定进展，但在更复杂场景中的成功率、泛化能力和安全可控性往往仍不足。

也有研究尝试将人类反馈、迭代学习或逆强化学习引入运动规划，用于学习更自然或更安全的驾驶行为。但这些方法往往仍存在以下问题：

对复杂公共道路环境覆盖不足
对其他交通参与者预测不确定性的考虑有限
缺乏与成熟解析规划器的深度融合
在高维状态空间中的收敛速度较慢

因此，当前仍缺少一种能够同时满足以下目标的混合方法：

高成功率
较强实时性
良好可解释性
便于引入安全机制
能够适应复杂动态交互场景

本文提出的 PPO + Frenet 混合规划器正是围绕这一空缺展开。

三、方法

本节介绍基于采样的 Frenet 轨迹规划器与PPO 强化学习过程如何结合，形成混合轨迹规划系统。

A. 基于采样的运动规划器

本文使用的解析轨迹规划器基于 Frenet 坐标系中的采样式轨迹规划思想。在每个时间步，规划器大致经历以下几个阶段：

车辆状态更新
结合自车状态、环境信息与预测结果，更新当前时刻在 Frenet 坐标系中的状态表达。
轨迹采样
基于时间、速度与横向偏移等采样指标，生成多组候选轨迹方案。
轨迹运动学检查
利用车辆单轨模型及车辆参数，对候选轨迹进行运动学可行性检查。
轨迹成本计算
对每条候选轨迹计算多种成本项，例如：
- 碰撞概率成本
- 横向 / 纵向急动度成本
- 到参考路径的距离成本
- 速度偏差成本
轨迹碰撞检查与筛选
在按成本排序后，对优先级更高的轨迹做碰撞验证，选择第一条无碰撞且可行的最优轨迹更新车辆状态。

该轨迹规划过程具有两个重要特点：

优点 1：天然具备较强的可解释性与安全约束整合能力。
优点 2：可以把强化学习输出映射为成本权重调节量，而无需替换底层规划器结构。

规划器每次生成的轨迹通常覆盖约3 s规划时域，仿真步长约为0.1 s。

B. 强化学习过程

在该系统中，强化学习模块的任务并不是直接生成控制命令，而是优化解析规划器的轨迹选择偏好。具体来说，智能体通过观察当前场景及候选轨迹统计信息，动态调节规划器中不同成本项的权重。

实现层面使用了gymnasium、stable-baselines3及其循环策略扩展，训练算法采用近端策略优化（PPO），并结合LSTM处理时序依赖。

PPO 的核心目标函数如下：

L C L I P ( θ ) = E ^ t [ min ⁡ ( r t ( θ ) A ^ t , clip ⁡ ( r t ( θ ) , 1 − ϵ , 1 + ϵ ) A ^ t ) ] L^{CLIP}(\theta) = \hat{\mathbb{E}}_t \left[ \min \left( r_t(\theta)\hat{A}_t,\; \operatorname{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t \right) \right]LCLIP(θ)=E^t[min(rt(θ)A^t,clip(rt(θ),1−ϵ,1+ϵ)A^t)]

公式说明：
θ \thetaθ：当前策略参数
r t ( θ ) r_t(\theta)rt(θ)：新旧策略在动作概率上的比值
A ^ t \hat{A}_tA^t：时间步t tt的优势估计
ϵ \epsilonϵ：裁剪系数，用于限制过大的策略更新
核心作用：通过裁剪机制抑制过大的策略变化，从而兼顾训练稳定性与策略改进效率。

本文进一步使用Recurrent PPO / MlpLstmPolicy，其核心思想是：

LSTM 状态更新：在每个时间步结合当前输入、上一时刻隐藏状态和单元状态，形成新的时序特征表示。
策略与价值联合估计：利用更新后的隐藏状态，同时估计动作分布与状态价值。

这一设计特别适合：

部分可观测环境
动态交互场景
需要历史信息辅助判断风险趋势的情形

C. 观测空间设计

观测空间由多类信息共同构成，不仅包含传统的车辆与目标状态，还包含解析规划器生成的候选轨迹统计特征。其主要类别如下：

类别	主要观测内容
自车信息	速度、加速度、急动度、转向、航向、偏航、到参考路径的距离
目标信息	到目标距离、剩余时间、目标达成状态、超时状态、目标速度
周围环境	相邻车道、车道方向、障碍物信息
轨迹集合信息	可行轨迹比例、轨迹有效性、自车风险、第三方风险
成本信息	最优轨迹成本、所有轨迹成本的均值与方差、碰撞概率成本

关键特点：与直接控制型 RL 系统不同，这里强化学习智能体能看到由解析规划器提前计算出的轨迹束信息。这让策略不只基于单一状态做反应，而是能够根据候选轨迹整体分布调整规划偏好。

D. 动作空间设计

本文中智能体动作的物理意义是：调整轨迹规划器中各个成本项的权重。对每个成本项i ii，在时间步t tt的动作可以表述为：

ω i min ⁡ ≤ ω i p r e v + ω i a c t i o n ≤ ω i max ⁡ \omega_i^{\min} \le \omega_i^{prev} + \omega_i^{action} \le \omega_i^{\max}ωimin≤ωiprev+ωiaction≤ωimax

其中：

ω i p r e v \omega_i^{prev}ωiprev：上一时刻该成本项的权重
ω i a c t i o n \omega_i^{action}ωiaction：当前动作带来的增量
ω i min ⁡ , ω i max ⁡ \omega_i^{\min}, \omega_i^{\max}ωimin,ωimax：该成本项允许的最小与最大边界

关键意义：

强化学习不是替代规划器，而是在线调参
动作空间可保持较低维，训练更稳定
规划器原有的可行性检查、碰撞检查和约束体系仍然有效

每次执行后，相关成本项会回到默认值或受配置规则约束，以避免权重失控累积。

E. 奖励设计

奖励设计直接决定智能体会把车辆行为推向何种风格，因此是整个系统中最关键的部分之一。本文采用终止奖励 + 过程奖励构成的混合奖励系统。

终止类奖励 / 惩罚主要反映任务结果：

到达目标
提前到达目标
延迟到达目标
碰撞惩罚
无可行解惩罚
场景超时惩罚

过程类奖励 / 惩罚用于塑造驾驶行为：

到参考路径的距离
与目标速度的差异
到目标的纵向推进量
当前动作与默认成本设置的差异
自车风险
障碍物风险

该设计试图同时实现以下目标：

尽量避免碰撞
减少风险暴露
保持合理车速
提升舒适性与轨迹平顺性
保证朝目标持续推进

实践上需要注意：如果对风险抑制奖励设置过强，车辆可能学会“过度保守”，甚至在部分场景中倾向于停车。因此，奖励设计必须在安全性与通行效率之间取得平衡。

四、结果与分析

本节从训练环境、风险控制、行为适应性、场景成功率与执行时间等角度，对混合规划器进行分析，并与默认解析规划器进行对比。

A. 环境与训练设置

训练主要使用丁字路口场景，因为这类场景包含复杂且关键的车辆交互。数据集划分如下：

训练集：75%
验证集：15%
测试集：10%

文中给出的 PPO 关键超参数包括：

学习率：0.0003
裁剪系数：0.1
折扣因子γ \gammaγ：0.99
GAE 参数λ \lambdaλ：0.97
批量大小：2352
训练轮数：5
熵系数：0.01

在文中实验设置下，总训练规模约为700 万时间步，训练在200 万到 300 万步后开始收敛，完整训练时长约24 小时。

B. 风险感知轨迹规划

本文特别关注风险控制能力。轨迹风险定义为：

R ( T ) = max ⁡ ( p ( T ) H ( T ) ) R(\mathcal{T}) = \max \left( p(\mathcal{T}) H(\mathcal{T}) \right)R(T)=max(p(T)H(T))

其中：

p ( T ) p(\mathcal{T})p(T)：轨迹对应的碰撞概率
H ( T ) H(\mathcal{T})H(T)：轨迹对应的潜在危害

关键结论：

与默认规划器相比，混合规划器在多个场景中的自车风险显著降低
第三方道路参与者风险也同步下降
智能体能够在高风险情况真正发生前，依据环境与轨迹集合信息提前识别风险并主动减速

这说明强化学习在这里学到的并不仅仅是“避撞结果”，而是更接近一种风险前瞻性调节能力。

C. 智能体驾驶行为的适应性

与固定参数的默认规划器相比，混合规划器的一个突出优势是：可以在运行时动态改变驾驶行为。

在对向来车、左转冲突等场景中，混合规划器通常表现为：

更早制动
更贴近参考路径
对碰撞概率权重进行连续上调
主动降低进入高风险区域时的速度

而默认规划器则可能由于固定参数设置，在某些边界场景下表现出：

接近速度过快
对风险响应过晚
需要手动重新调参才能避免碰撞

核心结论：混合方法能够在不手工改参数的前提下，通过学习到的权重调节策略，在复杂场景中表现出更合适的驾驶风格。

D. 场景性能评估

在更大规模场景评估中，混合规划器与默认规划器进行了对比。主要观察包括：

默认规划器在部分参数设置下虽然成功率较高，但仍然存在碰撞
碰撞概率成本设置过低时，车辆会表现得过于激进
碰撞概率成本设置过高时，车辆又可能表现得过于保守
混合规划器则能够通过学习形成更灵活的动态权衡

关键结论：在未见过的测试场景中，混合规划器依然能保持较高稳定性，并显著降低碰撞发生。

此外，从驾驶行为统计看，混合规划器通常表现出：

更低的平均速度
更强的转弯适应性
更灵活的轨迹偏移与风险调节能力

这表明策略学到的是一种场景相关的、可变的规划偏好，而非单纯固定的保守策略。

E. 执行时间评估

执行时间评估表明，该方法在引入强化学习后仍保留较强的实时潜力。文中给出的平均结果大致如下：

RL 模型预测时间：约0.44 ms
轨迹束采样与成本计算时间：约15.8 ms
整体模型单步执行时间：约46 ms

结论：强化学习部分本身的推理开销很低，系统总耗时仍主要集中在解析规划器的轨迹生成、评估和碰撞检查流程上，因此该方法具备较好的工程可落地性。

五、讨论

实验结果说明，这种解析规划器 + 强化学习权重调节的混合方法是有效的。与纯强化学习方法相比，它具有以下优势：

训练更快
成功率更高
更容易保持可解释性
更容易集成安全机制
可利用已有解析规划器的工程基础

与纯解析方法相比，它又具备以下优势：

能够在线适应场景变化
可弥补固定参数设置在边界场景下的不足
能对预测误差或风险变化作出更柔性的调节

当然，该方法也存在一些局限：

如果底层规划器结构变化较大，智能体通常需要重新训练或至少部分重训练
奖励设计和场景选择仍然需要仔细打磨
动作上下界、奖励尺度和成本项设计不合理时，训练可能出现过保守或波动过大的问题

总体来看，这种混合架构展示了非常有价值的工程方向：不是让强化学习替代规划器，而是让强化学习增强规划器。

六、结论与展望

本文提出了一种面向自动驾驶轨迹规划的混合运动规划方法，通过把强化学习智能体接入 Frenet 解析规划器，实现对成本权重的动态调节，从而提升系统在复杂动态场景中的泛化能力、成功率与风险控制水平。

实验表明，该方法在保持较好实时性的同时，能够：

降低碰撞概率
降低自车与第三方风险
提升复杂路口场景中的轨迹选择质量
减少人工手动调参负担

未来工作可围绕以下方向展开：

从调成本权重扩展到调采样参数
让强化学习不只影响成本函数，也影响采样密度、采样范围和预测偏好。
扩展到更多强化学习算法
当前采用的是PPO / Recurrent PPO，未来可进一步探索GRPO、A3C、SAC、TRPO等算法在该混合框架中的适用性。
引入更丰富的环境表示
例如图结构环境表示、更加细致的语义地图信息与不确定性建模。
提升真实部署适用性
深入研究该框架在真实车辆系统中的鲁棒性、执行效率与安全验证方式。

PPO

一句话总结：本文最重要的价值不只是“把 PPO 用到了轨迹规划里”，而是提出了一种可扩展到 PPO、GRPO 等多类强化学习算法的混合轨迹规划范式。