news 2026/4/16 10:22:17

改善深层神经网络 第一周:深度学习的实践(三)dropout

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
改善深层神经网络 第一周:深度学习的实践(三)dropout

础后,可以说,在理解上对本周的内容不会存在什么难度。

当然,我也会对一些新出现的概念补充一些基础内容来帮助理解,在有之前基础的情况下,按部就班即可对本周内容有较好的掌握。

本篇继续上篇的内容,介绍dropout 正则化。

1. dropout 正则化

1.1 原理介绍

Dropout(随机失活)是一种在训练过程中随机“丢弃”部分神经元的正则化方法。

它的核心思想是:在每次训练迭代时,随机让一部分神经元暂时不参与前向传播和反向传播,从而防止网络过度依赖某些特定节点。

通俗地讲,就是在每次迭代时,会随机出现“修路”情况来关闭一些神经元,避免模型“太喜欢某条常走的弯路”,尝试多条路径,从而增强泛化能力,就像这样:

Pasted image 20251030100158

在数学上,设一个隐藏层的输出为

,那么 Dropout 的过程可表示为:

其中:

是一个与

形状相同的随机掩码矩阵;

是保留神经元的概率;

除以

是为了保持整体激活期望一致(防止数值偏移)。

别慌,这几个公式堆在一起看起来确实挺吓人,我们同样展开一些需要理解的内容:

(1)什么叫随机掩码矩阵?

“随机掩码矩阵”其实就是一张决定谁能“上场”的随机名单表。

在每一轮训练中,rand(A.shape) 会生成一个介于 0~1 的随机矩阵,如果某个位置的随机数小于

,那对应的神经元就被“保留”,否则就被“屏蔽”。

用一个实例来说明:假设我们有一个隐藏层输出:

现在,我们设置保留概率

,然后随机生成:

于是更新后的输出就是:

这就表示——在这一轮训练中,第 2 和第 4 个神经元被“临时关闭”。

它们既不会参与当前的前向传播,也不会计算梯度更新。

换句话说,每一轮上场的神经元阵容都不同, 有时候 1、3 上,有时候 2、4 上,像在打轮换赛。

(2)保持整体激活期望一致是什么意思?

由于每次训练时有一部分神经元被“关掉”,如果不做任何处理,剩下神经元的输出总量就会变小。

这会导致模型的数值分布发生偏移,训练和测试阶段的行为不一致。

这句话是什么意思?什么叫偏移?怎么就不一致了? 我们来详细解释一下:

在训练阶段,我们启用 Dropout——每一轮随机关闭一部分神经元;

而在测试阶段,我们不再丢弃神经元,希望所有连接都参与计算。

因此,如果不做“除以

”的调整,训练时网络看到的激活值较小,而测试时所有神经元都激活,信号强度会突然变大。

打个比方,这就相当于:

模型在训练时习惯了“音量 50%”,但一到测试就被拉成“音量 100%”, 结果预测结果可能大幅波动,这就是所谓的分布偏移(distribution shift)

即同样的输入数据,在训练和测试时,网络的激活分布不一样,表现出不同的“行为模式”。

而调整的目的就是:让训练时的信号强度和测试时一致,这样模型在上场时才不会突然音量上升而不适应。

我们继续用上面的例子:

原来的激活平均值为:

Dropout 之后(关掉一半神经元):

平均值直接变小很多,这会让网络误以为“信号整体变弱”,从而影响学习。

所以我们把输出除以保留概率:

这时平均值恢复到:

虽然不完全相等,但数量级一致,期望保持平衡。

换成人话就是: 虽然有一半神经元请假了,但留下来的要多干一倍活,这样团队输出不变。(难绷)

(3)为什么这么“随机”的机制能起作用?

随机丢弃神经元,会让网络在每次训练中都看到一个不同的子网络。

于是整个训练过程,就像在同时训练一大群共享参数的小网络。

最终,当我们在测试时把所有神经元都打开,网络的行为就相当于这些小网络预测结果的集成平均。

因此,Dropout 能显著提升模型的稳健性,减少过拟合。

就像一个团队经过无数次不同组合的演练, 最终每个人都能独当一面,不再依赖特定搭档。

总之,dropout正则化就是每次训练都会让网络“瘦身”,但每次瘦的部分不同。

这样,网络学到的不是一条固定通路,而是多条冗余且稳健的特征路径。

1.2 “人话版总结”

可以把神经网络想成一张复杂的城市路网,每条“路”就是一条神经元之间的连接。

在没有正则化时,模型总喜欢走几条特别顺畅的“老路”,久而久之就太依赖这些路线了。

一旦测试阶段路况稍有不同(数据分布变化),模型就会懵,因为它从来没学会走别的路。

而 Dropout 做的事,就是在每次训练时——

随机封几条路去维修,让模型被迫换条路走。

久而久之,模型就能适应多种交通方案,学会多条“通往目的地”的路径。

等到测试阶段,所有道路都重新开放,模型就像整个城市的交通系统都训练有素:

不管哪条路通,都能通向正确的结果。

这也就是 Dropout 提升模型泛化能力的根本原因。

类型 内容 形象比喻

优点 1. 有效防止过拟合,让模型不过度依赖特定神经元。2. 提高模型的鲁棒性(稳健性),相当于训练了多个“子网络”的集成效果。3. 在一定程度上还能起到特征选择作用,让网络更“均衡”地使用不同特征。 修路让模型学会多条路线,不怕某条主路堵车。

缺点 1. 训练时间变长(因为每次激活模式不同,收敛更慢)。2. 不适合用于推理阶段,测试时必须关闭 Dropout。3. 如果

过低,会导致模型学习信号太弱,出现欠拟合。 修太多路,车都走不动了;修太少路,又起不到练兵效果。

2. 应用正则化和调节学习率的关系?

在上一篇的结尾,我们提出了这样一个问题:应用正则化和直接调节学习率有什么不同呢?

详细点说:

既然正则化最终是要影响参数的大小,那我是不是调一调学习率也能达到类似的效果?

要回答这个问题,我们先分别看看二者到底在干什么。

2.1 学习率:决定“走多快”

学习率

是梯度下降中最直观的参数。

它控制着模型在参数空间中更新的步伐大小:

学习率太大:模型可能“迈太大步”,直接越过最优点,甚至震荡发散。

学习率太小:模型每次只挪一点点,训练速度慢到令人发疯。

通俗地讲:学习率决定你“往山谷底走的步子多大”。

太大了会一脚踩空;太小了磨到天荒地老。

2.2 正则化:决定“走哪条路”

正则化并不是控制你“走得快不快”,而是在梯度更新时施加一种施加一种特定的影响力。

以 L2 正则化为例,参数更新公式是:

可以看出:

这一项,会在每次更新时把权重往 0 拉一点;

它的目的不是减慢步伐,而是修正方向——让参数不至于“长歪”。

Dropout也是同理, 就像在训练道路上随机设置一些坑洞,让车手学会绕过,而不是死死踩同一条路,它并不减慢你的油门(学习率依然决定速度),而是防止模型走到“捷径陷阱”,学得太偏。

通俗地说:学习率是油门,正则化是方向盘。

学习率太大,车容易冲出路,没有正则化,车会偏离中心线。

这里我用GPT画了一张图,或许能帮助记忆:

Pasted image 20251030111929

2.3 总结

对比项 学习率调节 正则化(L2 / Dropout)

目的 控制参数更新的速度 控制参数更新的方向与幅度,使其不过大,或防止过拟合

影响阶段 优化器(梯度下降) 损失函数(多加一项惩罚)或训练策略(Dropout)

公式体现

或随机丢掉部分神经元

形象比喻 决定“走多快” 决定“往哪走”,Dropout 让车手学会绕开陷阱

错误调节后果 步子太大,震荡不收敛;太小,训练缓慢 惩罚太强,模型太简单(欠拟合);太弱,模型太复杂(过拟合);Dropout 太大,模型收敛慢

交互影响 学习率越大,惩罚效果越显著;两者需协调 一般配合调节,防止权重过大或收敛太慢

总之,学习率与正则化是互补的,而不是替代关系。

一个决定“快慢”,一个决定“方向和稳健性”;

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 10:13:46

AI图像编辑新突破:Qwen-Edit-2509实现跨图像光线智能迁移

引言:AI驱动的图像光线重塑技术 【免费下载链接】Relight 项目地址: https://ai.gitcode.com/hf_mirrors/dx8152/Relight 在数字图像创作领域,光线调整一直是提升作品质感的关键环节。传统的图像编辑软件往往需要用户具备专业的光影知识和复杂的…

作者头像 李华
网站建设 2026/4/14 21:00:03

惯导姿态解算中的一下实际问题1(附姿态解算相关的C、matlab代码)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录前言一、姿态角与姿态矩阵的概念二、飞机用两种常用坐标系分析2.1 惯导常用坐标系(苏俄坐标系)2.2 飞控常用坐标系(欧美坐标系&am…

作者头像 李华
网站建设 2026/4/3 6:09:31

50、Linux NFS 网络文件系统全解析

Linux NFS 网络文件系统全解析 1. NFS 常见问题及解决办法 在使用 NFS 时,可能会遇到一些常见问题,下面为你详细介绍并提供解决方法。 - 主机名/IP 配对错误 :服务器对主机名/IP 配对的认知可能不正确,这可能是由于 /etc/hosts 文件或域名系统(DNS)表中的错误导致…

作者头像 李华
网站建设 2026/4/14 0:44:47

Linux编辑器—vim的使用

本期来讲解Linux中常用且高效的编辑器vim的基本使用和指令操作 目录 一、vim的主要三种工作模式 1.命令模式(Command Mode) 2.插⼊模式(Insert mode) 3.底行模式(Last Line Mode) 二、vim的基本操作 三、vim命令模式下的命…

作者头像 李华
网站建设 2026/4/15 15:24:56

STM32F103C8T6 + SI24R1实现2.4G通信

原理图:SPI时序可以看的出来,SCK空闲时低电平,第一个跳变采样,高位先行,8Bit,HAL库可以这样配置宏定义:#define MY_RF_CH 69 #define RX_MODE 0 #define TX_MODE 1#define SI24R1_CSN_LOW HAL_G…

作者头像 李华