news 2026/6/10 12:49:18

Online Process Reward Learning for Agentic Reinforcement Learning

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Online Process Reward Learning for Agentic Reinforcement Learning

abstract

大型语言模型(LLM)越来越多地通过强化学习(RL)被训练为自主智能体[autonomous agents],能够在交互式环境中进行长期推理和行动。然而,稀疏且有时无法验证的奖励使得时序信用分配[temporal credit assignment]变得极具挑战性。最近的研究尝试将过程监督整合到智能体学习中,但存在标注偏差[biased annotation]奖励欺骗[reward hacking]过细粒度信号[overly fine-grained signals]导致的高方差,以及在状态重叠罕见时失效等问题。因此,我们提出了在线过程奖励学习(Online Process Reward Learning, OPRL),这是一种通用的智能体RL信用分配策略[credit-assignment strategy],能够无缝集成到标准在策略(on-policy)算法中,无需额外的轨迹采样或显式的步骤标签。

在OPRL中,我们交替优化隐式过程奖励模型(an implicit process reward model, PRM)和智能体策略,通过基于轨迹的DPO目标函数[a trajectory-based DPO objective]将轨迹偏好转化为隐式步骤奖励。这些步骤奖励随后用于计算步骤级优势函数[episode-level advantages],与来自结果奖励的episode级优势函数相结合进行策略更新,形成一个自我强化循环[a self-reinforcing loop]。理论分析保证了学习到的步骤奖励[the learned step rewards]轨迹偏好[trajectory preferences]保持一致,并且充当基于势函数的奖励塑形[potential-based shaping rewards],提供有界梯度以稳定训练过程。

在实证研究中,我们在三个不同的智能体基准测试上评估OPRL,包括WebShop和VisualSokoban,以及具有不可验证奖励的开放式社交交互环境SOTOPIA。关键的是,OPRL在各个领域均展现出优于前沿LLM和强RL基线的性能,以更高的样本效率和更低的训练方差实现了最先进的结果。进一步的分析还表明,OPRL通过使用更少的动作实现了高效探索,凸显了其在真实世界场景中用于智能体学习的潜力。

1 INTRODUCTION

LLM正在快速从被动生成器演化为能够进行推理、行动并在长时间跨度内调整策略的自主智能体[autonomous agents],包括搜索和研究智能体[search and research agents](Jin et al., 2025; OpenAI, 2025a)、移动和网页导航器[mobile and web navigators](Furuta et al., 2024; Bai et al., 2024)、软件工程助手[software engineering assistants](Yang et al., 2025; Wei et al., 2025a)、游戏玩家(Wang et al., 2025),以及社交或具身智能[social or embodied intelligence](Liu et al., 2025; Lu et al., 2025)。
与传统的针对静态单轮任务的LLM后训练强化学习(Ouyang et al., 2022; Shao et al., 2024)不同,在动态交互式环境[dynamic, interactive environments]中训练LLM智能体面临特殊挑战:
(1) 奖励通常是稀疏且延迟的,使得对中间动作[intermediate actions]信用分配[credit assignment]变得复杂;
(2) 轨迹长且在token级别上是非马尔可夫的[long and non-Markovian],每个步骤由思维链(CoT)(Wei et al., 2022)和可执行动作组成,当信用[credit]被推送到单个token时会放大方差;
(3) 环境和对手是非平稳的、开放式的,并且通常伴随着无法验证的奖励(例如对话[dialogues])。
因此,仅使用单一结果奖励的轨迹级优化(Wang et al., 2025; Chen et al., 2025; Wei et al., 2025b)受到时序信用分配[temporal credit assignment]问题的困扰,导致高方差的策略学习、脆弱的探索以及在智能体任务上的有限收益。

最近的研究尝试特别通过强化学习中的过程监督[process supervision in RL]来解决这些问题。例如,Zeng等人(2025)、Zou等人(2025)、Zhang等人(2025b)在中间步骤提供了更密集的反馈,但需要人工标注或手工设计的启发式方法,这些方法成本高、存在偏差且容易受到奖励欺骗的影响。

生成式奖励模型(Generative reward models, GRM)(例如,LLM作为评判者[LLM-as-judge])(Liu等人, 2025; Zha等人, 2025)预测每个步骤的关键性或正确性,减少了标注开销,但可能存在噪声且在不同领域间不一致。从结果标签训练的token级过程奖励模型(PRM)在单轮任务中有所帮助(Yuan等人, 2025; Cui等人, 2025),但它们提供的奖励对于智能体学习来说往往过于细粒度,随着轨迹增长会放大方差并使训练不稳定。

其他方法[Other approaches](Feng等人, 2025; Choudhury, 2025)通过分组相同状态[grouping identical states]来计算逐步优势[step-wise advantages],但这一假设在状态重叠罕见的开放式语言环境中会失效。

综合来看,这些局限性为智能体强化学习提出了一个核心问题:我们如何设计一种信用分配策略[credit assignment strategy],使其具有标签效率且稳定,能够扩展到长期、多轮交互,并在开放式环境中对可验证和不可验证的奖励都保持鲁棒性和泛化能力?

为了解决这个问题,我们提出了在线过程奖励学习(Online Learning Process Rewards, OPRL),这是一种用于LLM智能体的通用信用分配策略[a general credit assignment strategy]。OPRL仅使用在策略轨迹及其结果偏好,在训练策略的同时训练PRM。

在每个训练步骤中,当前策略生成轨迹[rollouts],这些轨迹通过基于规则的验证器[a rule-based verifier]结果奖励模型(outcome reward model, ORM)进行排序,形成正负轨迹对[positive–negative trajectory pairs]。然后,我们使用基于DPO推导的目标函数在这些轨迹对上更新PRM。更新后的PRM通过测量每个动作相对于先前策略快照[the previous policy snapshot]的相对偏好,为每个动作诱导出隐式奖励。由于这个奖励是按回合计算的,它提供了密集的反馈来引导探索,同时保持足够粗粒度以控制方差。

策略优化[Policy optimization]随后结合了两种互补的优势:来自结果奖励的episode级优势[Episode-level advantage]和来自隐式步骤奖励的步骤级优势,同时捕获全局任务成功和单个动作的贡献。OPRL与标准的在策略强化学习算法兼容,如PPO(Schulman等人, 2017)、GRPO(Shao等人, 2024)、RLOO(Ahmadian等人, 2024)、REINFORCE++(Hu等人, 2025),无需显式步骤标签或额外的采样成本。

Episode-level Advantage

含义

  • 整条轨迹τ_i的结果奖励(outcome reward)
  • 比如在WebShop中:任务成功=1,失败=0
  • 比如在SOTOPIA中:对话的目标完成分数(0-10分)

关键特点

  • 稀疏信号:只在episode结束时给一次
  • 全局评价:评判整个任务是否成功
  • 无法区分:不知道哪一步好、哪一步坏

Step-level Advantage(步骤级优势)

不完全是每一步的reward,而是每一步相对于其他步骤的相对质量

含义:

- `` 是第t步动作的**隐式奖励**

- 通过PRM学习得到,表示"这一步相比旧策略有多好"

- 是**相对值**,不是绝对分数

关键特点:

- ✅ 密集信号:每一步都有反馈

- ✅ 局部评价:区分每个动作的贡献

- ✅ 可组合:多个好步骤 → 好轨迹

OPRL(Episode + Step 结合)

# 轨迹1(成功) A^E(τ_1) = +0.5 # 全局成功奖励 # 通过PRM学到的步骤奖励 r_φ(步骤1) = +0.8 ← PRM认为这步很关键! r_φ(步骤2) = +0.6 ← 也不错 r_φ(步骤3) = +0.2 ← 中性 r_φ(步骤4) = +0.1 ← 常规操作 # 归一化后的步骤优势 A^S(步骤1) = +1.2 A^S(步骤2) = +0.6 A^S(步骤3) = -0.3 A^S(步骤4) = -0.5 # 最终优势(公式5) A(步骤1) = A^E + α·A^S = +0.5 + 1×(+1.2) = +1.7 ← 强化! A(步骤2) = +0.5 + (+0.6) = +1.1 A(步骤3) = +0.5 + (-0.3) = +0.2 A(步骤4) = +0.5 + (-0.5) = 0.0
# 轨迹2(失败) A^E(τ_2) = -0.5 # 全局失败惩罚 # 但PRM可能发现某些步骤其实还可以 r_φ(步骤1) = -0.9 ← 太离谱了 r_φ(步骤2) = -0.7 r_φ(步骤3) = -0.1 ← 浏览本身不算太坏 r_φ(步骤4) = +0.2 ← 返回首页是合理的止损 A^S(步骤1) = -1.5 A^S(步骤2) = -0.8 A^S(步骤3) = +0.1 A^S(步骤4) = +0.4 # 最终优势 A(步骤1) = -0.5 + (-1.5) = -2.0 ← 重点惩罚! A(步骤2) = -0.5 + (-0.8) = -1.3 A(步骤3) = -0.5 + (+0.1) = -0.4 ← 惩罚减轻 A(步骤4) = -0.5 + (+0.4) = -0.1 ← 几乎不惩罚
OPRL从多个维度解决了先前工作的局限性:
(1) 我们的方法通过将轨迹级偏好转换为步骤级指导,在无需步骤标签的情况下提供细粒度、偏好一致的步骤信用分配。理论分析表明,这些隐式步骤奖励与Bradley-Terry轨迹偏好具有贝叶斯一致性,并实现了保持最优策略集的基于势函数的塑形(见定理3.3);
(2) OPRL通过使用隐式步骤奖励[implicit step rewards]而非逐token奖励[per-token rewards]在回合级别进行优化,从而稳定多轮强化学习训练并降低方差。具体而言,策略最大化塑形目标相当于执行朝向PRM的KL下降步骤,产生有界梯度从而稳定训练(见命题3.4);
(3) OPRL仅依赖于轨迹级偏好,这些偏好可以来自基于规则的验证器(例如成功信号)或不可验证的结果奖励模型(例如LLM评判者),适用于状态重叠罕见的开放式环境。
这使得跨领域的统一信用分配策略成为可能。
在三个具有挑战性的智能体基准测试中的实验表明,OPRL在多样化的多轮设置中是有效的、高效的且鲁棒的。在WebShop和VisualSokoban中,它持续优于闭源前沿模型和强基线强化学习方法,使用Qwen2.5-7B(-VL)(Yang等人,2024)作为基础模型实现了最先进的结果。在SOTOPIA这个具有不可验证奖励的开放式社交交互环境中,OPRL在自我对话中将目标完成率提高了14%,在与GPT-4o对话时提高了48%(OpenAI,2024)。进一步的分析表明,相比仅使用结果奖励或token级PRM的基线方法,OPRL具有更快的收敛速度和更低的方差,表明其具有高样本效率和稳定的训练过程。OPRL还同时提升了episode级和步骤级奖励,同时产生更短的episode,这表明它通过更少的不必要动作实现了更有用的探索。最后,消融实验表明,优势级融合是关键的,环境步骤惩罚仅提供了适度的收益,而token级PRM对于稳定的多轮训练来说过于细粒度。
我们的贡献有三个方面:
  • 我们提出了OPRL,这是一种通用的细粒度信用分配方法,将轨迹级偏好转换为智能体强化学习的密集步骤级指导。
  • 我们提供了理论保证,证明所得到的隐式步骤奖励是偏好一致的,并构成具有有界梯度的基于势函数的奖励塑形,以稳定多轮强化学习训练。
  • 实证结果和分析表明,OPRL在样本效率、跨强化学习算法的鲁棒性以及对具有不可验证奖励的开放式环境的泛化能力方面均优于基线方法。

2 PRELIMINARIES预备知识

Task formulation(任务形式化)

我们将LLM智能体任务视为一个多步骤决策过程,其中智能体与环境交互,通过给定任务提示x ∈ p(X)进行顺序决策来实现长期目标。在每个时间步[timestep],智能体接收一个观察[an observation](例如,对手消息或环境反馈),并用文本动作作出响应,其中表示token词汇表[the token vocabulary]最大生成长度¹[the maximum generation length]。然后环境返回一个标量奖励[a scalar reward]并提供下一个观察[the next observation]
直到最后一个时间步[the last timestep],完整的episode由一条轨迹组成:。然而,在现实世界场景中(例如对话),奖励可能是稀疏或延迟的,例如仅在轨迹结束时提供反馈或中间步骤只有弱信号。因此,将信用分配[assign credit]给轨迹中的各个步骤是具有挑战性的,特别是当有许多交互回合时。

强化学习通过优化LLM的策略[the policy]来解决智能体任务,目标是最大化交互过程中的期望累积奖励。为了估计期望奖励关于的梯度,使用了策略梯度方法,如 PPO(Schulman等人,2017)、GRPO(Shao等人,2024)、RLOO(Ahmadian等人,2024)和 REINFORCE++(Hu等人,2025)。这些强化学习算法主要在估计策略更新的优势函数的方式[the manner of estimating advantages for policy update]上有所不同。

例如,PPO使用广义优势估计(generalized advantage estimation, GAE)通过学习的价值函数来计算优势。GRPO和RLOO是无critic的,在同一提示的N个样本批次中形成相对优势——GRPO通过组均值对每个奖励进行中心化(通常归一化),而RLOO使用留一法均值。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 13:39:56

php python+vue网上房屋中介系统

目录 系统架构概述核心功能模块技术实现细节部署与扩展适用场景 项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作 系统架构概述 网上房屋中介系统采用前后端分离架构,后端使用PHP或Python处理业…

作者头像 李华
网站建设 2026/6/10 13:40:03

php python+vue网上汽车销售系统的开发

目录 开发网上汽车销售系统的技术栈系统功能模块后端开发技术前端开发技术数据库设计系统部署与维护安全性与性能优化 项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作 开发网上汽车销售系统的技术栈 PHP、…

作者头像 李华
网站建设 2026/6/10 13:40:01

Hadoop vs Spark:哪种大数据框架更适合物联网数据处理?

Hadoop vs Spark:哪种大数据框架更适合物联网数据处理? 关键词:Hadoop、Spark、物联网数据处理、批处理、流处理、内存计算、分布式架构 摘要:物联网(IoT)的爆发式发展带来了海量多源异构数据,如…

作者头像 李华
网站建设 2026/6/10 12:46:17

数字图像处理---压缩编码

核心比喻:整理行李箱 你要出远门,但行李箱很小。为了装下所有东西,你必须: 扔掉不必要的东西(比如多余的包装盒)。 用更高效的方式打包(比如把衣服卷起来而不是平铺)。 压缩编码…

作者头像 李华
网站建设 2026/6/10 12:46:16

小程序计算机毕设之基于springboot+小程序的自助停车缴费系统小程序的设计与实现基于SpringBoot的停车管理微信小程序系统(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/6/9 17:40:18

小程序毕设项目:基于springboot+小程序的自助停车缴费系统小程序的设计与实现(源码+文档,讲解、调试运行,定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华