从SGD到AdamW：优化器演进史与Transformer时代的最佳实践-编程阁

从SGD到AdamW：优化器演进史与Transformer时代的最佳实践

在深度学习的训练过程中，优化器扮演着至关重要的角色。它决定了模型如何从数据中学习，影响着训练速度、收敛效果以及最终性能。从最初的随机梯度下降（SGD）到如今Transformer模型训练标配的AdamW，优化器的发展历程反映了深度学习领域对更高效、更稳定训练方法的持续追求。

1. 优化器的进化之路：解决核心痛点的技术迭代

1.1 SGD：简单但低效的起点

随机梯度下降（SGD）作为最基础的优化器，其核心思想直白而有力：沿着损失函数的负梯度方向更新参数。公式表示为：

θ = θ - α * ∇J(θ)

其中：

θ：模型参数
α：学习率
∇J(θ)：损失函数关于参数的梯度

SGD的主要局限性：

对所有参数使用相同的学习率，忽视了不同参数可能需要的不同更新幅度
在损失函数曲面存在"峡谷"地形时，容易产生剧烈震荡
缺乏"动量"概念，难以有效利用历史梯度信息

提示：在简单凸优化问题上，SGD表现尚可，但在复杂的深度学习模型中，这些缺陷会被放大。

1.2 Momentum：引入物理动量的直觉

为解决SGD的震荡问题，Momentum优化器引入了物理学中的动量概念。它通过累积历史梯度来平滑更新方向：

v = γ * v + α * ∇J(θ) θ = θ - v

关键改进：

γ（动量系数）通常设为0.9左右
在梯度方向一致的维度上加速更新
在梯度方向变化的维度上抑制震荡

实际效果对比：

优化器	训练速度	震荡程度	超参数敏感性
SGD	慢	高	高
Momentum	快30%	中	中

1.3 RMSProp：自适应学习率的突破

RMSProp的核心创新是为每个参数自动调整学习率，解决了SGD和Momentum中固定学习率的问题。其更新规则：

E[g²] = β * E[g²] + (1-β) * g² θ = θ - α * g / (√E[g²] + ε)

关键特点：

对频繁更新的参数使用较小学习率
对稀疏更新的参数使用较大学习率
特别适合处理非平稳目标（如NLP任务）

2. Adam的崛起：自适应矩估计的统一框架

2.1 Adam的核心机制

Adam（Adaptive Moment Estimation）结合了Momentum和RMSProp的优点，成为2015年后最流行的优化器。其核心在于同时估计梯度的一阶矩（均值）和二阶矩（未中心化方差）：

m = β1*m + (1-β1)*g # 一阶矩估计 v = β2*v + (1-β2)*g² # 二阶矩估计 m_hat = m / (1-β1^t) # 偏差修正 v_hat = v / (1-β2^t) θ = θ - α * m_hat / (√v_hat + ε)

Adam的三大优势：

自适应学习率：不同参数有不同的有效学习率
动量累积：保持历史梯度信息
偏差修正：解决训练初期估计偏差问题

2.2 Adam的实践表现

在计算机视觉和自然语言处理任务中，Adam通常表现出色：

在ResNet上比SGD快2-3倍达到相同准确率
在RNN/LSTM训练中稳定性显著优于SGD
对学习率的选择相对鲁棒（常用默认值α=0.001）

然而，Adam并非完美无缺：

在部分任务上可能收敛到次优解
内存占用较高（需保存m和v两个状态）
超参数β1、β2的影响不易直观理解

3. AdamW：Transformer时代的优化器标准

3.1 权重衰减的解耦创新

AdamW的关键改进在于正确处理权重衰减（L2正则化）。传统Adam将权重衰减直接混入梯度计算，而AdamW将其解耦：

# 传统Adam+L2 grad = grad + λ * θ # AdamW θ = (1 - α*λ) * θ - α * m_hat/(√v_hat+ε)

这种解耦带来了两大好处：

权重衰减真正作为正则化项独立作用
学习率α和衰减系数λ的影响不再耦合

3.2 在Transformer模型中的卓越表现

AdamW成为训练BERT、GPT等大模型的事实标准，原因在于：

对比实验数据：

优化器	BERT-base (MLM准确率)	训练稳定性	泛化能力
SGD	78.2%	低	中
Adam	81.5%	中	中
AdamW	82.7%	高	高

具体优势体现：

防止大模型过拟合的效果显著
超参数设置更加鲁棒
与学习率调度器（如线性warmup）配合良好

3.3 实际配置建议

对于典型的Transformer训练，推荐配置：

optimizer = AdamW( params, lr=5e-5, # 初始学习率 betas=(0.9, 0.999), # β1, β2 eps=1e-8, # 数值稳定项 weight_decay=0.01 # 权重衰减系数 ) scheduler = get_linear_schedule_with_warmup( optimizer, num_warmup_steps=1000, # warmup步数 num_training_steps=100000 )

注意：warmup阶段对稳定训练至关重要，特别是大batch size时。

4. 优化器选择与调优实战指南

4.1 不同场景下的优化器选择

并非所有任务都适合AdamW，以下是一些经验法则：

计算机视觉（CNN）：SGD with Momentum（配合适当学习率调度）可能更好
自然语言处理：AdamW是绝对首选
强化学习：Adam或RMSProp更常见
小数据集：SGD可能防止过拟合
超大模型：AdamW几乎唯一选择

4.2 超参数调优技巧

学习率：

Adam/AdamW：通常1e-5到1e-3
SGD：1e-3到1e-1（配合动量0.9）

权重衰减：

计算机视觉：1e-4
NLP：0.01到0.1
大模型：可能需要更小（如1e-5）

实用调试策略：

先用默认参数快速验证模型能否学习
观察训练初期loss下降曲线
如果震荡剧烈，降低学习率或增加β1
如果收敛过慢，适当提高学习率

4.3 常见问题排查

问题1：训练初期loss不下降

检查梯度是否正常流动（梯度裁剪可能有帮助）
尝试更激进的warmup策略
确认没有错误的权重初始化

问题2：训练后期性能波动

检查学习率是否过高
尝试增加β2（如0.999→0.9999）
考虑添加适当的学习率衰减

问题3：验证集性能持续低于训练集

增加权重衰减强度
尝试label smoothing
检查数据泄露问题

在BERT预训练实践中，我们发现AdamW配合0.01的weight decay和5000步的warmup，能够在保持训练稳定的同时获得最佳下游任务表现。而对于视觉Transformer（ViT），有时需要将weight decay降至0.001以获得更好结果。

从SGD到AdamW：优化器演进史与Transformer时代的最佳实践