【ppo】强化学习ppo训练调参-编程阁

ppo特点

在策略更新时，限制新旧策略差异，避免一步更新把策略推翻
这意味着：

ppo 天然偏保守
一旦策略早期形成“错误偏好”，后续很难纠正
奖励设计和 early-stage 行为分布，决定成败

奖励函数

首先目标奖励要大、终局错误惩罚也需要大
每一步应该有小奖励/惩罚指导模型该前进的方向，但不要大过整体目标的奖励/惩罚；同时应鼓励探索或者绕路，这就应该设置随步数增长而衰减的奖励/惩罚

多阶段奖励函数

对于复杂问题的强化学习，可以先设置简单奖励函数训练模型，待模型学到简单规则后再修改奖励函数为更复杂的设计，让模型学到更精细化的动作

学习率

critic优化器的学习率要设置为明显小于actor优化器，actor的学习依赖于critic，如果critic不稳定会导致actor网络的震荡
可以参考以下学习率

actor_optimizer=torch.optim.Adam(actor_model.parameters(),lr=0.0005)critic_optimizer=torch.optim.Adam(critic_model.parameters(),lr=0.0001)

网络训练

训练频率

多个episode之后再训练一次网络，单个episode之后训练网络有可能会出现方差大，导致训练不稳定，多个episode训练网络时将advantage也平均会更稳定

训练阶段

ppo比较通用，但收敛较慢，对于前期难训练或者想加快训练的任务，可以使用ddqn等收敛快的模型先训练前期阶段，后改为使用ppo继续训练

actor/critic网络

对输入网络的数据进行归一化很重要，可以平滑特征曲面，更容易优化，减少局部最优解的情况

leetcode 807. 保持城市天际线-耗时100%

Problem: 807. 保持城市天际线解题过程耗时100%，拿到每一行每一列的最大值，能够添加的数值，就是该数字所在行i最大值所在列j最大值的最小值 - grid[i][j]，sum min(rowMX[i], colMX[j]) - grid[i][j]; Code class Solution { p…

李华

【专业解码】计算机类18大本科专业全面对比：避坑指南与宝藏推荐

一次搞懂计算机类18个本科专业方向的区别，谁是“宝藏”谁是“天坑”？ 随着科技进步的日新月异，互联网在日常生活中所扮演的角色越来越重要。数字化、信息化的时代里，计算机类专业无疑是当今高考最热门且最具发展前景的志愿填报方…

李华

【深度收藏】Graph RAG实战指南：解锁大模型应用新边界

Graph RAG结合知识图谱与检索增强生成，使大模型具备更深层次的上下文理解与知识整合能力，超越传统向量搜索局限。文章介绍了其基本概念、优势、两种知识图谱类型(实体中心型和内容中心型)、高连接度图谱管理方法及未来发展方向。作为企业级AI应用的重要技…

李华

一个扩展卡 N 个名字

逛服务器硬件圈的朋友，多半都有过这种困惑：明明是核心功能一致的 “PCIe 扩展卡”，却能冒出 “Riser 提升卡”“GPU 转接模组”“PCIe x8 扩展模组” 一堆名词，绕得人头晕眼花。难道是服务器行业故意 “搞复杂”，拉高…

李华

【必收藏】网络安全三大热门岗位全解析：从零基础到实战的技能图谱与学习路径

很多想入行网络安全的人，都会陷入 “盲目学技能” 的误区 —— 要么跟着视频学了一堆工具，却不知道对应什么岗位；要么想做渗透测试，却花大量时间学安全运维的防火墙配置。其实网络安全岗位分工明确，不同岗位需要的核心…

李华

基于Java的养老服务系统

Spring Boot基于Java的养老服务系统是一款专为满足老年人生活需求和服务管理而设计的智能化系统。以下是对该系统的详细介绍： 一、系统背景与目的随着人口老龄化的加剧，养老服务需求不断增加，传统的人工管理方式已经难以满足现代养老服务的需…

李华