别再死记硬背了！用PyTorch代码和可视化，5分钟搞懂Sigmoid、Tanh、ReLU、Softmax怎么选-编程阁

深度学习激活函数实战指南：用PyTorch代码与可视化理解Sigmoid、Tanh、ReLU和Softmax

在深度学习的入门阶段，很多初学者会被各种激活函数搞得晕头转向。教科书上密密麻麻的数学公式往往让人望而生畏，而网络上抽象的理论解释又难以形成直观理解。今天，我们就用PyTorch代码和可视化工具，带你5分钟搞懂这些激活函数的特性和适用场景。

1. 激活函数的核心作用与选择标准

激活函数是神经网络中引入非线性的关键组件，没有它们，无论多少层的神经网络都只能解决线性可分问题。选择激活函数时，我们需要考虑几个关键因素：

非线性：这是激活函数存在的根本原因，使神经网络能够拟合复杂函数
可微分性：反向传播需要计算梯度
单调性：保证单层网络是凸函数
输出范围：控制数值稳定性
计算效率：影响训练速度

提示：现代深度学习框架已经内置了常见激活函数的优化实现，我们更应该关注它们的特性而非实现细节。

2. Sigmoid函数：从理论到实践

Sigmoid函数是最早被广泛使用的激活函数之一，它的数学表达式为：

def sigmoid(x): return 1 / (1 + torch.exp(-x))

让我们用PyTorch绘制它的函数图像和梯度：

import torch import matplotlib.pyplot as plt x = torch.arange(-8., 8., 0.1, requires_grad=True) y = torch.sigmoid(x) # 绘制函数图像 plt.figure(figsize=(12, 4)) plt.subplot(1, 2, 1) plt.plot(x.detach(), y.detach()) plt.title('Sigmoid Function') plt.xlabel('x') plt.ylabel('sigmoid(x)') # 计算并绘制梯度 y.sum().backward() plt.subplot(1, 2, 2) plt.plot(x.detach(), x.grad) plt.title('Sigmoid Gradient') plt.xlabel('x') plt.ylabel('gradient') plt.show()

从图像中我们可以直观看到Sigmoid的三大特点：

将输入压缩到(0,1)区间，适合表示概率
在x=0附近近似线性，两端饱和
最大梯度仅为0.25，容易出现梯度消失

实际应用建议：

适用于二分类问题的输出层
隐藏层中已较少使用
注意初始化时调整权重范围以避免饱和

3. Tanh函数：改进的Sigmoid

Tanh函数可以看作是Sigmoid的改进版，数学表达式为：

def tanh(x): return (torch.exp(x) - torch.exp(-x)) / (torch.exp(x) + torch.exp(-x))

它的可视化代码如下：

x = torch.arange(-8., 8., 0.1, requires_grad=True) y = torch.tanh(x) # 绘制函数图像和梯度 plt.figure(figsize=(12, 4)) plt.subplot(1, 2, 1) plt.plot(x.detach(), y.detach()) plt.title('Tanh Function') y.sum().backward() plt.subplot(1, 2, 2) plt.plot(x.detach(), x.grad) plt.title('Tanh Gradient') plt.show()

与Sigmoid相比，Tanh有以下优势：

特性	Sigmoid	Tanh
输出范围	(0,1)	(-1,1)
中心对称	否	是
最大梯度	0.25	1.0
收敛速度	较慢	较快

使用场景：

RNN中较常见
当需要输出有正有负时
比Sigmoid训练稍快但仍面临梯度消失

4. ReLU函数：简单却强大

ReLU(Rectified Linear Unit)因其简单有效成为当前最流行的激活函数：

def relu(x): return torch.maximum(torch.tensor(0.), x)

可视化实现：

x = torch.arange(-8., 8., 0.1, requires_grad=True) y = torch.relu(x) plt.figure(figsize=(12, 4)) plt.subplot(1, 2, 1) plt.plot(x.detach(), y.detach()) plt.title('ReLU Function') y.sum().backward() plt.subplot(1, 2, 2) plt.plot(x.detach(), x.grad) plt.title('ReLU Gradient') plt.show()

ReLU的优势非常明显：

计算简单：只有比较和取最大值操作
缓解梯度消失：正区间梯度恒为1
稀疏激活：约50%的神经元会被激活

但也要注意它的缺点：

Dead ReLU问题：一旦输入为负，梯度永远为0
输出无界：可能导致数值不稳定

针对这些问题，研究者提出了几种变体：

LeakyReLU：给负区间一个小的斜率(如0.01)
```
torch.nn.LeakyReLU(negative_slope=0.01)
```
PReLU：将负区间斜率作为可学习参数
ELU：平滑处理负区间

5. Softmax函数：多分类的标配

Softmax专为多分类问题设计，它能将任意实数向量转换为概率分布：

def softmax(x): return torch.exp(x) / torch.sum(torch.exp(x), dim=0)

示例代码：

scores = torch.tensor([3.0, 1.0, -3.0]) probabilities = torch.softmax(scores, dim=0) print(probabilities) # 输出: tensor([0.8789, 0.1189, 0.0022])

Softmax的特性包括：

输出总和为1，适合表示概率
放大最大值的优势（指数效应）
常用于神经网络的最后一层

注意：在实践中直接计算指数可能数值不稳定，通常需要做数值优化。

6. 如何选择合适的激活函数

根据前面的分析，我们可以总结出激活函数的选择策略：

隐藏层选择：

首选ReLU及其变体：计算简单、训练快
浅层网络：可以尝试Tanh
特殊情况：如需要限制输出范围时

输出层选择：

二分类：Sigmoid
多分类：Softmax
回归问题：线性激活或无激活

实用技巧：

配合Batch Normalization使用效果更好
不同层可以使用不同激活函数
关注新研究但不要盲目追新

# 一个简单的多层网络示例 model = torch.nn.Sequential( torch.nn.Linear(784, 256), torch.nn.ReLU(), torch.nn.Linear(256, 128), torch.nn.LeakyReLU(0.1), torch.nn.Linear(128, 10), torch.nn.Softmax(dim=1) )

在实际项目中，我通常会先用ReLU作为基线，然后根据具体问题和网络深度进行调整。对于特别深的网络，Swish等新激活函数可能表现更好，但会增加计算成本。