AI人工智能-强化学习-第十三周（小白）-编程阁

一、强化学习（RL）和监督学习（SL）的核心区别

监督学习（比如分类，回归）：本质是“老师教学生”——给固定的“输入-输出答案”（比如图片->猫/狗标签、历史数据->股票价格），模型学“输入到答案的映射”，学会就只能做同类预测。
强化学习：是“学生自己摸爬滚打”——没有固定答案，只有“教练给反馈”（奖励/惩罚），模型（智能体）要通过不断和环境互动，试错找到“长期收益最高的做事方式”（最优策略）。

举两个直观例子：

学习范式	核心逻辑	生活类比	典型任务
监督学习	学 “输入→输出” 的映射	背单词（单词→中文意思，有标准答案）	股票预测、图像分类
强化学习	学 “状态→动作→奖励” 的最优策略	学骑自行车（没人教 “每一步怎么蹬”，摔了 = 惩罚、稳住 = 奖励，自己试错找到平衡方法）	机器人导航、围棋 AI、文本生成

二、强化学习的5个核心概念（用“围棋AI”贯穿理解）

这5个概念是RL的基石

智能体（Agent）:做决策的主题——就是这个围棋AI（可以是深度学习模型，实体机器人等）
环境（Environment）：智能体互动的场景——围棋规则（落子规则、输赢判断）+ 实时棋盘
状态（State,S）:环境的当前情况——当前棋盘上的棋子布局（比如“黑棋占右上角，白棋占中路”）
动作（Action,A）：智能体的决策——AI下一步落子的位置（比如“右下星位”）
奖励（Reward,R）：环境给智能体的反馈——赢棋得+1分（正奖励）、输棋得-1分（负奖励），无关落子得0分（无奖励）

核心逻辑链：

智能体在“状态S”下选“动作A”->环境变到新状态S'->环境给“奖励R”->智能体根据奖励调整决策，最终找到“赢棋概率最高的落子方式”。

三、智能体要学的2个核心技能：策略和价值函数

如果把智能体比作“想赢棋得棋手”，这两个技能就是“怎么落子”和“怎么判断局势”

1.策略（Policy,π）：“落子的决策指南”

策略是一个函数：

基于Simulink的混合交直流微电网架构仿真

目录手把手教你学Simulink--基础微电网场景实例：基于Simulink的混合交直流微电网架构仿真一、引言：为什么需要混合交直流微电网？——“兼容并蓄”破解多源异构接入难题挑战： 二、核心原理：混合交直流微电网的“架…

李华

Java实习模拟面试复盘：深入HashMap线程安全、Spring Boot核心机制与分布式系统设计（实在智能终面45分钟）

李华

Apache Struts2 OGNL RCE注入

Apache Struts2 OGNL RCE注入Apache Struts2 OGNL RCE漏洞是一种严重的远程代码执行漏洞，攻击者通过构造恶意的OGNL表达式注入到HTTP请求参数中，利用Struts2框架对OGNL表达式处理不当的缺陷，绕过安全沙箱限制，最终实现在目标服务器…

李华

群雄逐鹿——AI搜索产业竞争与商业模式变革

引言：万亿美元战场的全新博弈 2023-2024年，全球科技巨头在AI搜索领域的总投入超过2000亿美元。这个数字不仅体现了技术转型的规模，更揭示了一个残酷现实：传统搜索市场每年超过3000亿美元的广告收入蛋糕正在重新分割，而…

李华

心智革命——AI搜索如何重塑人类认知与知识未来

引言：当外部记忆成为认知器官公元前4000年，苏美尔人发明了文字，人类开始了将记忆外化的历程。公元前300年，亚历山大图书馆试图收集所有人类知识。1440年，古登堡印刷机让知识大规模复制成为可能。1998年，谷歌…

李华

手把手教你学 GPU KMD--1.1：UMD、KMD 与 DDK 的协作关系——从应用到硬件的完整数据流解析

目录 UMD、KMD 与 DDK 的协作关系 ——从应用到硬件的完整数据流解析一、核心角色定义二、典型数据流：从应用调用到 GPU 执行三、各层交互的关键机制 1. UMD ↔ KMD：通过私有 IOCTL 或 WDDM Escape 接口 2. 内存共享：如何让 UMD 描述的数据被 GPU 访问？ 3. 同步…

李华