文章核心总结与创新点
主要内容
该研究聚焦熵正则化强化学习(ERL)和分布强化学习(DRL)的收敛性问题,针对传统ERL在温度趋近于零时最优策略模糊、DRL缺乏收敛迭代方案的缺陷,提出温度解耦策略(temperature decoupling gambit),构建了可解释、保多样性的最优策略框架,同时建立了首个稳定估计参考最优回报分布的算法。
核心创新点
- 温度解耦策略:通过分离目标正则化温度与策略执行温度(要求σ/τ→0,τ→0),保证温度趋近于零时策略及回报分布的收敛性,避免传统ERL的模糊性。
- 参考最优性框架:定义贝尔曼参考最优算子及其唯一不动点,明确参考最优策略的特性,该策略是参考策略在最优动作集上的限制,能最大化状态层面的动作多样性。
- 分布ERL(DERL)算法:提出软分布贝尔曼算子,解决传统DRL在控制场景下的迭代不收敛问题,实现参考最优回报分布的精准估计。
- 理论收敛保证:在离散和连续MDP中,分别证明了策略(总变差/弱收敛)和回报分布(Wasserstein距离收敛)的收敛性,填补了非表格型MDP中ERL收敛理论的空白。
翻译部分(Markdown格式)
Abstract
在寻求最优策略的过程中,强化学习(RL)