大模型学习基础（六）强化学习（Reinforcement Learning，RL）初步1.3-编程阁

前篇文章提到，为了评估actor结合s所做的action是否为好的动作（有利于reward积累）而引入了优势函数A，在不同情况下优势函数的定义不同。优势函数可以由人为来进行设定，然后评估action的好坏，但如果每一笔数据都需要人类来评定分数，效率显然太低，所以需要引入critic（评估）模型，来进行对action的评价。critic模型的一种主要形式是价值函数V（s）。

下面的图片直接用总得分G和优势函数相等，而G的得分需要完成所有的a之后才能累计得出，在这种情况下训练critic就需要做完全部的动作aciton；另一种情况，critic模型要做的是在看到第一个action a1之后，就能推断出之后所有的action所累积的分数是多少，也即推断出总得分A，A实际上是G的一个估计量。

训练critic的方式有两种

一、蒙特卡洛算法

actor执行一个action，将后续所有action的reward累计，得到G。以（s，G）对作为数据集来训练critic，如果是on-policy的方法来训练，那么只有当actor执行完一组action后才能得到一组训练critic的数据。

二、时序差分算法

如果critic只能在actor执行完所有的action后才能得到数据G用于训练，效率是十分低下的，我们希望actor在做完当前action之后就可以得到critic的训练数据。actor在s1下进行a1得到r1，并且产生了新的s2；而V（s1）近似于G1，V（s2）近似于G2；由于actor并没有进行完所有的action，所以G1和G2的具体值都是不知道的，但我们知道G1和G2之间是有关系的，G1=nG2+r1，所以G1-nG2=r1，所以V（s1）-nV（s2）应该近似于r1。我们可以用（s1，a1，r1，s2）来训练critic。

下面给出一个例子来分别通过两种方法进行V的预测。

设定，进行八轮训练。得到的V（Sb）的平均值是3/4，试计算V（Sa）的值。

如果使用蒙特卡洛思想，那么V（Sa）的值应该等于G（Sa），即在环境Sa下采取动作后，后续所有reward的累计，即0+0=0。此时我们希望critic的输出V（Sa）是0。

如果使用时序查分思想，那么V（Sa）的值不仅取决于G（Sa），还取决于G（Sb），G（Sa）-G（Sb）应该等于r=0，所以V（Sa）的值也应该是0。

现在我们得到了用于评估状态价值函数的critic模型，接下来要将其运用在actor的训练中。

给定环境s1，actor做出动作a1，得到回报r1，产生新的环境s2，然后继续进行a2……循环此过程，最后累积的汇报为G1’，而用于评估该动作a的优势函数A定义为G1’-b；b为偏置，b的值就是我们通过critic模型在评估环境s1以后得到的价值函数V（s1）。可以看出，V（s1）代表的是在s1状态下，执行一系列动作以后得到的reward的累计的平均值；而G1’表示的是在状态s1采取动作a1之后再执行一系列动作以后得到的reward的累计值，G1’的值是有随机性的，因为actor在执行a1后的动作并不一定是固定的，所以用G1’-V（s1）实际上是用动作的平均优势值对单个动作的优势值进行了标准化，从而衡量单个动作的好坏。

基于大数据技术的钢材表面缺陷

青岛黄海学院毕业设计（论文）开题报告题目名称： 基于大数据技术的钢材表面缺陷识别系统的设计与实现学院： 大数据学院专业： 数据科学与大数据技术学生姓名： 学号：…

李华

幻步智能网络的优势

性能高速访问、全球节点覆盖、智能选路加速稳定性自动故障切换、可靠连接保障灵活性 SD-WAN 支持多链路组合与灵活部署成本相比传统专线更具成本效益（广域网优化）安全安全传输与独立 IP 配置提升控制力

李华

重磅！AI Agents优化终极指南，最新综述一篇彻底搞懂！

LLM优化技术在许多通用任务中提升了模型性能，但缺乏针对AI Agents关键功能（如长期规划、动态环境交互和复杂决策）的专门优化。为此，华东师大等提供了对LLM的AI Agents优化方法的全面回顾，将其分为参数驱动和非参数驱动…

李华

小白也能懂：大模型训练与微调技术全解析（程序员必看收藏）

小白也能懂：大模型训练与微调技术全解析（程序员必看收藏） 文章详细解释了大模型的训练过程，包括预训练(获取基座模型)、后训练(监督微调SFT和强化学习RL)等核心概念。通过DeepSeek和Qwen两个实际案例，展示了如何在不同…

李华

低代码AI入门指南：别让“AI赋能”变成“AI负能”

“我们花200万采购大模型服务，半年后只产出3份行业报告。”这是某制造企业CTO在技术交流会上的真实吐槽。在GPT-4、文心一言等模型频繁刷屏的当下，越来越多企业陷入“买得起模型，用不好能力”的窘境。IDC统计显示，2025年国内企业级…

李华

消息称小米SU7换代或涨价2万元；前OpenAI华人科学家姚顺雨加入腾讯；Gemini 3 Flash发布| 极客头条

「极客头条」—— 技术人员的新闻圈！ CSDN 的读者朋友们好，「极客头条」来啦，快来看今天都有哪些值得我们技术人关注的重要新闻吧。（投稿或寻求报道：zhanghycsdn.net） 整理 | 苏宓出品 | CSDN&#xff08…

李华