news 2026/4/16 18:02:02

大模型学习基础(五) 强化学习(Reinforcement Learning,RL)初步

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型学习基础(五) 强化学习(Reinforcement Learning,RL)初步

前面的文章简单介绍过,传统的监督学习所使用的数据集是(特征,标签),有“标签”即明确的知晓正确的输出应该是什么。而强化学习所面临的问题并不一定有严格的正确答案,而只是知晓一个大概正确的方向:如在下围棋时,第一步下在哪里?显然这个问题没有一个明确答案,这个时候使用强化学习显然比监督学习更加合适,因为监督学习需要的是具有明确答案作为标签的数据集。

强化学习的结构逻辑模型可以用上图简单表示:

三要素:1.Actor,即模型;2.Environment,环境 3.Action,即模型的输出

Environment输入Observation给Actor,Actor输出一个Action给Environment,Environment回复一个Reward(奖励)分数给Actor,接着继续把Observation交给Actor,如此循环。模型训练的要求就是使得Reward最大,代表我们找到了最优的模型。

对于模型来说,Environment输入Observation给Actor,即代表模型从环境中提取到了状态信息,根据这个状态信息模型来判断下一步的动作;而模型输出的是一个分类的结果,即多个动作对应多个不同的概率;在输出概率分布以后要添加一定的随机性,使得每次的输出结果具有差异性,然后选择最大概率所对应的动作。

模型在选择一个动作之后,这个动作实际是对Environment发生,相应的Environment会给模型一个回馈Reward,然后再给模型一个新的Observation,模型继续选择新的动作,循环此过程。这个过程中的Reward会被累积下来,Reward越大,代表模型做出的动作越好。用表示reward累计,因为我们希望R越大越好,所以R取反可以直接作为损失函数,使得最小化损失和最大化奖励统一起来。

整个强化学习的过程逻辑图如下:

需要注意的是,只有Actor本身是神经网络结构,而Env和Reward都是黑盒子,这意味着我们只能优化Actor的参数,而Env和Reward中的参数是无法优化的。有了通过Reward定义的损失函数,有了模型Actor,显然我们可以通过常规的深度学习的方法来优化Actor中的参数。

那么如何使得在给定S1时,模型能输出指定的值a?

这个时候的输出是可以明确的,这样的训练可以使用监督学习完成。可以通过经典的多分类问题思路来处理,即用交叉熵定义损失函数。如果不想要模型输出指定的值a,只需要对损失函数取反。

而实际的情况是,环境的状态S是由多个Si构成的,每训练一组S-a即训练一个多分类问题,把这些问题的损失函数(交叉熵)加在一起,即可训练出在不同的状态下应该使用什么动作。这里读者可能会有疑问:上述介绍的问题似乎都是监督学习问题,即可以明确正确输出的标签,与reward又有什么关联呢?这个问题将在下一讲给出答案。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 14:02:18

MySQL 的 MVCC(多版本并发控制)详解

MVCC(Multi-Version Concurrency Control,多版本并发控制)是 MySQL InnoDB 存储引擎实现事务隔离级别的核心机制,其核心目标是在不加锁(或减少加锁)的情况下,实现读写并发,同时保证事…

作者头像 李华
网站建设 2026/4/16 1:03:50

Unione Flow Editor 流程节点属性控件事件机制深度解析

Unione Flow Editor 流程节点属性控件事件机制深度解析 在企业级流程编辑器的落地实践中,流程节点的属性配置是承接业务逻辑的核心载体。不同业务场景对属性控件的交互需求往往复杂多变:审批类型切换时需隐藏冗余属性、特定条件下需动态标记必填项、选择…

作者头像 李华
网站建设 2026/4/15 22:29:32

SPM使用程序进行批处理

SPM使用程序进行批处理注:1.batch在SPM中保存(save batch and script) 2.运行batch不必在SPM中,在matlab界面点击上方绿色箭头Run即可 3.file‘E:\Download\MRI_AD_TI_256256170\ADNI\test\data’;为数据文件夹位置,需要自己定义 4.for循环中i从3开始循环(前两个.和…

作者头像 李华
网站建设 2026/4/16 3:57:34

SPM设置原点

目的:处理过程中无需点击 方法:利用display预先设置原点。 先点击set origin 再点击reorient 最后点击no

作者头像 李华
网站建设 2026/4/16 10:44:23

Qwen3-VL多模态大模型全解析:技术突破、部署实践与行业应用指南

Qwen3-VL多模态大模型全解析:技术突破、部署实践与行业应用指南 【免费下载链接】Qwen3-VL-8B-Thinking 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-VL-8B-Thinking 在人工智能领域,多模态交互技术正引领新一轮创新浪潮。Qwen3-VL…

作者头像 李华
网站建设 2026/4/15 20:58:47

Spring XML解析与BeanDefinition注册详解

一、XML解析为BeanDefinition的时机 1.1 在Spring生命周期中的位置 XML解析为BeanDefinition发生在Spring容器启动阶段,具体时机如下: Spring容器启动流程: 1. 创建BeanFactory 2. 【XML解析阶段】加载配置文件,解析XML&#xff0…

作者头像 李华