abstract
大型语言模型(LLM)越来越多地通过强化学习(RL)被训练为自主智能体[autonomous agents],能够在交互式环境中进行长期推理和行动。然而,稀疏且有时无法验证的奖励使得时序信用分配[temporal credit assignment]变得极具挑战性。最近的研究尝试将过程监督整合到智能体学习中,但存在标注偏差[biased annotation]、奖励欺骗[reward hacking]、过细粒度信号[overly fine-grained signals]导致的高方差,以及在状态重叠罕见时失效等问题。因此,我们提出了在线过程奖励学习(Online Process Reward Learning, OPRL),这是一种通用的智能体RL信用分配策略[credit-assignment strategy],能够无缝集成到标准在策略(on-policy)算法中,无需额外的轨迹采样或显式的步骤标签。
在OPRL中,我们交替优化隐式过程奖励模型(an implicit process reward model, PRM)和智能体策略,通过基于轨迹的DPO目标函数[a trajectory-based DPO objective]将轨迹偏好转化为隐式步骤奖励。这些步骤奖励随后用于计算步骤级优势函数[episode-level advantages],与来自结果奖励的episode级优势函数相结合进行策略更新,形成一个自我强化循环[a self-reinforcing loop]。理论分析保证了学习到的步骤奖励[the learned step rewards]与轨迹偏好[trajectory preferences]保持一致,并且充当基于势函数的奖励塑形[potential-based shaping rewards],提供有界梯度以稳定训练过程。
在实证研究中,我们在三个不同的智能体基准测试上评估OPRL,包括WebShop和VisualSokoban,以及具有不可验证奖励的开放式社交交互环境SOTOPIA。关键的是,OPRL在各个领域均展现出优于前沿LLM和强RL基线的性能,以更高的样本效率和更低的训练方差实现了最先进的结果。进一步的分析还表明,OPRL通过使用更少的动作实现了高效探索,凸显了其在真实世界场景中用于智能体学习的潜力。
1 INTRODUCTION
最近的研究尝试特别通过强化学习中的过程监督[process supervision in RL]来解决这些问题。例如,Zeng等人(2025)、Zou等人(2025)、Zhang等人(2025b)在中间步骤提供了更密集的反馈,但需要人工标注或手工设计的启发式方法,这些方法成本高、存在偏差且容易受到奖励欺骗的影响。
生成式奖励模型(Generative reward models, GRM)(例如,LLM作为评判者[LLM-as-judge])(Liu等人, 2025; Zha等人, 2025)预测每个步骤的关键性或正确性,减少了标注开销,但可能存在噪声且在不同领域间不一致。从结果标签训练的token级过程奖励模型(PRM)在单轮任务中有所帮助(Yuan等人, 2025; Cui等人, 2025),但它们提供的奖励对于智能体学习来说往往过于细粒度,随着轨迹增长会放大方差并使训练不稳定。
其他方法[Other approaches](Feng等人, 2025; Choudhury, 2025)通过分组相同状态[grouping identical states]来计算逐步优势[step-wise advantages],但这一假设在状态重叠罕见的开放式语言环境中会失效。
综合来看,这些局限性为智能体强化学习提出了一个核心问题:我们如何设计一种信用分配策略[credit assignment strategy],使其具有标签效率且稳定,能够扩展到长期、多轮交互,并在开放式环境中对可验证和不可验证的奖励都保持鲁棒性和泛化能力?
为了解决这个问题,我们提出了在线过程奖励学习(Online Learning Process Rewards, OPRL),这是一种用于LLM智能体的通用信用分配策略[a general credit assignment strategy]。OPRL仅使用在策略轨迹及其结果偏好,在训练策略的同时训练PRM。
在每个训练步骤中,当前策略生成轨迹[rollouts],这些轨迹通过基于规则的验证器[a rule-based verifier]或结果奖励模型(outcome reward model, ORM)进行排序,形成正负轨迹对[positive–negative trajectory pairs]。然后,我们使用基于DPO推导的目标函数在这些轨迹对上更新PRM。更新后的PRM通过测量每个动作相对于先前策略快照[the previous policy snapshot]的相对偏好,为每个动作诱导出隐式奖励。由于这个奖励是按回合计算的,它提供了密集的反馈来引导探索,同时保持足够粗粒度以控制方差。
策略优化[Policy optimization]随后结合了两种互补的优势:来自结果奖励的episode级优势[Episode-level advantage]和来自隐式步骤奖励的步骤级优势,同时捕获全局任务成功和单个动作的贡献。OPRL与标准的在策略强化学习算法兼容,如PPO(Schulman等人, 2017)、GRPO(Shao等人, 2024)、RLOO(Ahmadian等人, 2024)、REINFORCE++(Hu等人, 2025),无需显式步骤标签或额外的采样成本。
Episode-level Advantage
含义:
是整条轨迹τ_i的结果奖励(outcome reward)
- 比如在WebShop中:任务成功=1,失败=0
- 比如在SOTOPIA中:对话的目标完成分数(0-10分)
关键特点:
- ✅稀疏信号:只在episode结束时给一次
- ✅全局评价:评判整个任务是否成功
- ❌无法区分:不知道哪一步好、哪一步坏
Step-level Advantage(步骤级优势)
不完全是每一步的reward,而是每一步相对于其他步骤的相对质量。
含义:
- `
` 是第t步动作的**隐式奖励**
- 通过PRM学习得到,表示"这一步相比旧策略有多好"
- 是**相对值**,不是绝对分数
关键特点:
- ✅ 密集信号:每一步都有反馈
- ✅ 局部评价:区分每个动作的贡献
- ✅ 可组合:多个好步骤 → 好轨迹
OPRL(Episode + Step 结合)
# 轨迹1(成功) A^E(τ_1) = +0.5 # 全局成功奖励 # 通过PRM学到的步骤奖励 r_φ(步骤1) = +0.8 ← PRM认为这步很关键! r_φ(步骤2) = +0.6 ← 也不错 r_φ(步骤3) = +0.2 ← 中性 r_φ(步骤4) = +0.1 ← 常规操作 # 归一化后的步骤优势 A^S(步骤1) = +1.2 A^S(步骤2) = +0.6 A^S(步骤3) = -0.3 A^S(步骤4) = -0.5 # 最终优势(公式5) A(步骤1) = A^E + α·A^S = +0.5 + 1×(+1.2) = +1.7 ← 强化! A(步骤2) = +0.5 + (+0.6) = +1.1 A(步骤3) = +0.5 + (-0.3) = +0.2 A(步骤4) = +0.5 + (-0.5) = 0.0# 轨迹2(失败) A^E(τ_2) = -0.5 # 全局失败惩罚 # 但PRM可能发现某些步骤其实还可以 r_φ(步骤1) = -0.9 ← 太离谱了 r_φ(步骤2) = -0.7 r_φ(步骤3) = -0.1 ← 浏览本身不算太坏 r_φ(步骤4) = +0.2 ← 返回首页是合理的止损 A^S(步骤1) = -1.5 A^S(步骤2) = -0.8 A^S(步骤3) = +0.1 A^S(步骤4) = +0.4 # 最终优势 A(步骤1) = -0.5 + (-1.5) = -2.0 ← 重点惩罚! A(步骤2) = -0.5 + (-0.8) = -1.3 A(步骤3) = -0.5 + (+0.1) = -0.4 ← 惩罚减轻 A(步骤4) = -0.5 + (+0.4) = -0.1 ← 几乎不惩罚
- 我们提出了OPRL,这是一种通用的细粒度信用分配方法,将轨迹级偏好转换为智能体强化学习的密集步骤级指导。
- 我们提供了理论保证,证明所得到的隐式步骤奖励是偏好一致的,并构成具有有界梯度的基于势函数的奖励塑形,以稳定多轮强化学习训练。
- 实证结果和分析表明,OPRL在样本效率、跨强化学习算法的鲁棒性以及对具有不可验证奖励的开放式环境的泛化能力方面均优于基线方法。
2 PRELIMINARIES预备知识
Task formulation(任务形式化)
强化学习通过优化LLM的策略[the policy]来解决智能体任务,目标是最大化交互过程中的期望累积奖励。为了估计期望奖励关于
的梯度,使用了策略梯度方法,如 PPO(Schulman等人,2017)、GRPO(Shao等人,2024)、RLOO(Ahmadian等人,2024)和 REINFORCE++(Hu等人,2025)。这些强化学习算法主要在估计策略更新的优势函数的方式[the manner of estimating advantages for policy update]上有所不同。
例如,PPO使用广义优势估计(generalized advantage estimation, GAE)通过学习的价值函数来计算优势。GRPO和RLOO是无critic的,在同一提示的N个样本批次中形成相对优势——GRPO通过组均值对每个奖励进行中心化(通常归一化),而RLOO使用留一法均值。