news 2026/6/10 20:48:33

Critic网络在强化学习中的价值评估

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Critic网络在强化学习中的价值评估

本文深入剖析PPO算法中Critic网络的核心原理,揭示其如何通过价值函数、TD误差与GAE机制,将稀疏的最终奖励转化为指导每一步生成的稠密信号。

1 Critic的核心使命:解决信用分配难题

在强化学习(RL)尤其是基于人类反馈的强化学习(RLHF)中,Critic(评论家)网络扮演着至关重要的角色。它不仅仅是一个辅助组件,更是整个训练系统的裁判与导航员。

1.1 稀疏奖励的困境与盲目的Actor

稀疏奖励问题在大型语言模型(LLM)的生成任务中,环境反馈通常是极其稀疏的。当Actor(策略网络)生成一段回答时,它必须完整地写完整个句子或段落(例如生成了100个Token),奖励模型(Reward Model, RM)才会根据最终的生成质量给出一个标量分数(例如4.7分)。

这就带来了一个巨大的难题:信用分配

  • 黑盒状态:在生成第1个Token到第99个Token的过程中,模型是完全盲目的,它不知道自己当前写得好不好。

  • 归因困难:最终得到了4.7分的高分,是因为第3个词用得好?还是第50个词逻辑通顺?或者仅仅是因为结尾写得漂亮?Actor无法区分哪些动作是关键的贡献者。

Critic的介入:从稀疏到稠密Critic的出现正是为了解决这一痛点。它是一个独立的神经网络,其任务是评估状态的价值

  • 稠密信号:Critic将原本只在结尾出现一次的终端奖励,转化为了一个在每一步都存在的价值指导信号

  • 实时反馈:这就好比一位经验丰富的棋手(Critic),不需要等到棋局结束(生成结束),就能在中间某个局面(生成某个Token时)判断出当前的优劣势。

  • 预判能力:Critic在LLM生成过程中,能够实时判断:写到这句话时,这篇回答看起来有多大希望能得高分?

1.2 动态基线与优势判断

价值函数作为动态基线Critic输出的标量称为状态价值,它代表了从当前状态出发,如果后续继续遵循当前策略,预期能获得的累积奖励。这个价值不仅仅是一个预测,它还充当了动态基线

在计算策略更新的梯度时,并不直接使用绝对奖励,而是使用**优势(Advantage)**:

更稳定的学习信号通过引入Critic作为基线,模型的学习目标变得更加清晰:

  • 超越预期:模型不再仅仅关心我得了多少分,而是关心我这一步的决策是否超出了当前状态下的平均预期。<

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 14:19:13

AI元人文构想思想发布会:当“悟空”成为动词,种子开始流浪

AI元人文构想思想发布会&#xff1a;当“悟空”成为动词&#xff0c;种子开始流浪“看&#xff0c;过去一小时&#xff0c;我们的讨论在‘时间维度’上的得分几乎是零。”这句话出现在项目评审会最僵持的时刻。当那张雷达图投影出来&#xff0c;会议室突然安静了。一种新的语言…

作者头像 李华
网站建设 2026/6/9 19:38:26

硕士论文不用愁:paperzz 毕业论文功能,4 步搞定 3 万字原创范文

Paperzz-AI官网免费论文查重复率AIGC检测/开题报告/文献综述/论文初稿当研究生们还在为 “论文选题太泛”“文献找不齐”“框架理不清” 熬夜时&#xff0c;paperzz 平台的paperzz 毕业论文功能&#xff0c;正以 “流程化 定制化” 的工具链&#xff0c;把学术写作从 “摸着石…

作者头像 李华
网站建设 2026/6/9 23:28:37

MCU+AT到OpenCPU:嵌入式通信技术迭代的必然性(完结篇)

上一篇在充分理解了OpenCPU的技术优势与架构潜力后&#xff0c;一个现实而关键的问题摆在工程师及企业面前&#xff1a;如何在实际工程中&#xff0c;将现有的MCUAT模组架构&#xff0c;安全、平滑地演进至OpenCPU平台&#xff1f;第六章&#xff1a;迁移与融合策略——从MCUAT…

作者头像 李华
网站建设 2026/6/10 14:44:53

【更新至2024年】1996-2024年各省公路里程数据

【更新至2024年】1996-2024年各省公路里程数据 1、时间&#xff1a;1996-2024年 2、来源&#xff1a;国家统计局、统计年鉴 3、指标&#xff1a;公路里程&#xff08;万公里&#xff09; 4、范围&#xff1a;31省 5、指标解释&#xff1a;公路里程指报告期末公路的实际长度…

作者头像 李华
网站建设 2026/6/10 10:54:34

力扣数据库——第N高的薪水

第N高的薪水https://leetcode.cn/problems/nth-highest-salary/ 一 题目 表: Employee Column NameTypeidintsalaryint id 是该表的主键&#xff08;列中的值互不相同&#xff09;。该表的每一行都包含有关员工工资的信息。编写一个解决方案查询 Employee 表中第 n 高的不…

作者头像 李华