强化学习第六课 —— SAC：熵驱动的更智能探索-编程阁

引言：不仅仅是为了赢
第一章：最大熵目标——混乱中的秩序
- 2.1 传统 RL 的局限
- 2.2 引入熵奖励：J(π)J(\pi)J(π)的重构
第二章：软策略迭代——数学推导的核心
- 3.1 软值函数与软 Bellman 方程
- 3.2 策略评估与策略提升
第三章：SAC 的工程实现——Actor 与 Critic 的共舞
- 4.1 Critic：双 Q 网络与软目标更新
- 4.2 Actor：高斯策略与重参数化技巧
- 4.3 Tanh 变换带来的概率密度修正
第四章：自动化α\alphaα——让算法自己决定探索力度
第五章：SAC vs PPO vs TD3——谁是王者？
结语：随机性的胜利

1. 引言：不仅仅是为了赢

想象你在玩一个走迷宫游戏。

DDPG/TD3 (确定性策略)像是一个执着的赛车手，一旦发现了一条通往终点的捷径，它就会死死咬住这条路，哪怕这条路非常狭窄，哪怕稍微有一点扰动就会撞墙。
SAC (随机性策略)则像是一团流动的水。它也想去终点，但它倾向于填满所有通往终点的可行路径。如果一条路堵了，它自然流向另一条。

这就是 SAC 的核心哲学。传统的 RL 算法试图寻找一个最优动作，而 SAC 试图寻找一个最优分布。它认为：在回报差不多的情况下，保留的选择越多越好（熵越大越好）。

这种“留有余地”的思想，使得 SAC 成为了目前样本效率（Sample Efficiency）最高且最抗干扰的算法之一。

2. 第一章：最大熵目标——混乱中的秩序

2.1 传统 RL 的局限

标准的强化学习目标是最大化期望累积回报：
max⁡π∑tE(st,at)∼ρπ[r(st,at)] \max_\pi \sum_t \mathbb{E}_{(s_t, a_t) \sim \rho_\pi} [r(s_t, a_t)]πmaxt∑E(st,at)∼ρπ[r(st,at)]
这种目标函数导向的结果通常是一个确定性策略（Deterministic Policy），即π(a∣s)→1\pi(a|s) \rightarrow 1π(a∣s)→1（对于某个最优动作）。这导致 Agent 很容易放弃探索，过早收敛到局部最优。

2.2 引入熵奖励：J(π)J(\pi)J(π)的重构

SAC 基于最大熵强化学习框架。我们将目标函数修改为：

J(π)=∑t=0TE(st,at)∼ρπ[r(st,at)+αH(π(⋅∣st))] J(\pi) = \sum_{t=0}^{T} \mathbb{E}_{(s_t, a_t) \sim \rho_\pi} [r(s_t, a_t) + \alpha \mathcal{H}(\pi(\cdot | s_t))]J(π)=t=0∑TE(st,at)∼ρπ[r(st,at)+αH(π(⋅∣st))]

这里的H(π(⋅∣st))\mathcal{H}(\pi(\cdot | s_t))H(π(⋅∣st))是策略在状态sts_ts

YOLOv8改进 | 可视化热力图：密度分析与视频动态检测全解析

为什么热力图在目标检测中如此重要？在计算机视觉领域，目标检测技术已经取得了长足的进步，尤其是YOLO系列算法以其高效性和准确性著称。然而，仅仅知道"检测到了什么"往往是不够的——我们还需要知道"在哪里检测最频繁"、“哪些区域容易被忽略"以…

李华

Noria数据流引擎：重新定义高性能Web应用架构

在当今数据驱动的Web应用开发中，传统数据库架构往往成为性能瓶颈。Noria作为基于动态部分状态数据流的高性能后端系统，通过创新的数据流处理机制，为读密集型应用提供了革命性的解决方案。本文将深入解析Noria的核心优势，并指导你如…

李华

终极指南：如何快速构建基于RBAC权限管理的企业级后台系统

终极指南：如何快速构建基于RBAC权限管理的企业级后台系统【免费下载链接】purest-admin 基于 .NET 8 vue3 实现的极简rabc权限管理系统后端后端基于精简后的abp框架，前端基于vue-pure-admin，前端极强的表格框架vxe-table，旨在打…

李华

终极指南：C语言HTML解析库gumbo-parser的完整使用手册

终极指南：C语言HTML解析库gumbo-parser的完整使用手册【免费下载链接】gumbo-parser An HTML5 parsing library in pure C99 项目地址: https://gitcode.com/gh_mirrors/gum/gumbo-parser 在C语言开发领域，HTML解析库的选择往往决定了项目的成败…

李华

强化学习第六课 —— SAC：熵驱动的更智能探索

目录