news 2026/4/15 17:52:15

AI人工智能-强化学习-第十三周(小白)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI人工智能-强化学习-第十三周(小白)

一、强化学习(RL)和监督学习(SL)的核心区别

  • 监督学习(比如分类, 回归):本质是“老师教学生”——给固定的“输入-输出答案”(比如图片->猫/狗标签、历史数据->股票价格),模型学“输入到答案的映射”,学会就只能做同类预测。
  • 强化学习:是“学生自己摸爬滚打”——没有固定答案,只有“教练给反馈”(奖励/惩罚),模型(智能体)要通过不断和环境互动,试错找到“长期收益最高的做事方式”(最优策略)。

举两个直观例子:

学习范式核心逻辑生活类比典型任务
监督学习学 “输入→输出” 的映射背单词(单词→中文意思,有标准答案)股票预测、图像分类
强化学习学 “状态→动作→奖励” 的最优策略学骑自行车(没人教 “每一步怎么蹬”,摔了 = 惩罚、稳住 = 奖励,自己试错找到平衡方法)机器人导航、围棋 AI、文本生成

二、强化学习的5个核心概念(用“围棋AI”贯穿理解)

这5个概念是RL的基石

  1. 智能体(Agent):做决策的主题——就是这个围棋AI(可以是深度学习模型,实体机器人等)
  2. 环境(Environment):智能体互动的场景——围棋规则(落子规则、输赢判断)+ 实时棋盘 
  3. 状态(State,S):环境的当前情况——当前棋盘上的棋子布局(比如“黑棋占右上角,白棋占中路”)
  4. 动作(Action,A):智能体的决策——AI下一步落子的位置(比如“右下星位”)
  5. 奖励(Reward,R):环境给智能体的反馈——赢棋得+1分(正奖励)、输棋得-1分(负奖励),无关落子得0分(无奖励)

核心逻辑链:

智能体在“状态S”下选“动作A”->环境变到新状态S'->环境给“奖励R”->智能体根据奖励调整决策,最终找到“赢棋概率最高的落子方式”。

三、智能体要学的2个核心技能:策略和价值函数

如果把智能体比作“想赢棋得棋手”,这两个技能就是“怎么落子”和“怎么判断局势”

1.策略(Policy,π):“落子的决策指南”

策略是一个函数:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 7:48:32

基于Simulink的混合交直流微电网架构仿真

目录 手把手教你学Simulink--基础微电网场景实例:基于Simulink的混合交直流微电网架构仿真 一、引言:为什么需要混合交直流微电网?——“兼容并蓄”破解多源异构接入难题 挑战: 二、核心原理:混合交直流微电网的“架…

作者头像 李华
网站建设 2026/4/16 7:45:18

Apache Struts2 OGNL RCE注入

Apache Struts2 OGNL RCE注入Apache Struts2 OGNL RCE漏洞是一种严重的远程代码执行漏洞,攻击者通过构造恶意的OGNL表达式注入到HTTP请求参数中,利用Struts2框架对OGNL表达式处理不当的缺陷,绕过安全沙箱限制,最终实现在目标服务器…

作者头像 李华
网站建设 2026/4/16 7:43:49

群雄逐鹿——AI搜索产业竞争与商业模式变革

引言:万亿美元战场的全新博弈 2023-2024年,全球科技巨头在AI搜索领域的总投入超过2000亿美元。这个数字不仅体现了技术转型的规模,更揭示了一个残酷现实:传统搜索市场每年超过3000亿美元的广告收入蛋糕正在重新分割,而…

作者头像 李华
网站建设 2026/4/16 7:44:07

心智革命——AI搜索如何重塑人类认知与知识未来

引言:当外部记忆成为认知器官公元前4000年,苏美尔人发明了文字,人类开始了将记忆外化的历程。公元前300年,亚历山大图书馆试图收集所有人类知识。1440年,古登堡印刷机让知识大规模复制成为可能。1998年,谷歌…

作者头像 李华