从零实现误差反向传播：像搭积木一样构建神经网络-编程阁

🧠 从零实现误差反向传播：像搭积木一样构建神经网络

快速实现梯度计算，告别耗时的数值微分

在神经网络的学习中，梯度计算是关键一步。之前我们使用数值微分法计算梯度，虽然简单直观，但计算效率太低。今天介绍一种高效的方法——误差反向传播法，它能快速准确地计算梯度，是神经网络训练的“加速器”。

🔍 神经网络学习全貌

让我们先回顾神经网络学习的完整流程：

前提条件

神经网络通过学习调整权重和偏置，以更好地拟合训练数据。这一过程分为四个步骤：

步骤1️⃣：小批量数据选择

从训练数据中随机选取一部分（mini-batch），这样做既能引入随机性，又能提高计算效率。

步骤2️⃣：梯度计算

计算损失函数关于各个权重参数的梯度。这里就是误差反向传播法大显身手的地方！

步骤3️⃣：参数更新

沿着梯度方向对权重参数进行微小更新，逐渐降低损失值。

步骤4️⃣：重复迭代

不断重复步骤1-3，直到模型性能满足要求。

🧱 模块化实现：像搭积木一样构建网络

为了实现误差反向传播，我们采用模块化设计思路——把神经网络中的每一层看作一个独立模块。下面是一个双层神经网络TwoLayerNet的实现：

importnumpyasnpfromcollectionsimportOrderedDictfromcommon.layersimportAffine,Relu,SoftmaxWithLossclassTwoLayerNet:def__init__(self,input_size,hidden_size,output_size,weight_init_std=0.01):# 初始化权重参数self.params={}self.params['W1']=weight_init_std*np.random.randn(input_size,hidden_size)self.params['b1']=np.zeros(hidden_size)self.params['W2']=weight_init_std*np.random.randn(hidden_size,output_size)self.params['b2']=np.zeros(output_size)# 🏗️ 构建网络层（关键步骤！）self.layers=OrderedDict()# 有序字典，记住层的顺序self.layers['Affine1']=Affine(self.params['W1'],self.params['b1'])self.layers['Relu1']=Relu()self.layers['Affine2']=Affine(self.params['W2'],self.params['b2'])self.lastLayer=SoftmaxWithLoss()# 最后一层是损失函数层defpredict(self,x):"""前向传播：按顺序通过每一层"""forlayerinself.layers.values():x=layer.forward(x)returnxdefloss(self,x,t):"""计算损失值"""y=self.predict(x)returnself.lastLayer.forward(y,t)defgradient(self,x,t):"""使用误差反向传播计算梯度"""# 前向传播self.loss(x,t)# 🔙 反向传播（逆序通过各层）dout=1dout=self.lastLayer.backward(dout)layers=list(self.layers.values())layers.reverse()# 关键：反向传播要逆序forlayerinlayers:dout=layer.backward(dout)# 收集各层的梯度grads={}grads['W1']=self.layers['Affine1'].dW grads['b1']=self.layers['Affine1'].db grads['W2']=self.layers['Affine2'].dW grads['b2']=self.layers['Affine2'].dbreturngrads

关键技巧：使用OrderedDict存储网络层非常重要！它能记住添加层的顺序，这样：

前向传播只需按顺序调用每层的forward()方法
反向传播只需按相反顺序调用每层的backward()方法

这种设计让添加或修改网络结构变得异常简单——就像搭乐高积木！

✅ 梯度确认：确保反向传播的正确性

误差反向传播法实现复杂，容易出错。如何验证我们的实现是正确的呢？梯度确认（Gradient Check）来帮忙！

原理很简单：比较数值微分（慢但简单可靠）和误差反向传播（快但复杂）计算的梯度是否一致。

# 读入MNIST数据(x_train,t_train),(x_test,t_test)=load_mnist(normalize=True,one_hot_label=True)network=TwoLayerNet(input_size=784,hidden_size=50,output_size=10)# 取一小批数据x_batch=x_train[:3]t_batch=t_train[:3]# 两种方法计算梯度grad_numerical=network.numerical_gradient(x_batch,t_batch)# 数值微分grad_backprop=network.gradient(x_batch,t_batch)# 误差反向传播# 比较两者差异forkeyingrad_numerical.keys():diff=np.average(np.abs(grad_backprop[key]-grad_numerical[key]))print(f"{key}:{diff}")

输出结果：

b1: 9.70e-13 W2: 8.41e-13 b2: 1.19e-10 W1: 2.22e-13

看到没？误差都在10−1010^{-10}10−10到10−1310^{-13}10−13量级，几乎可以忽略不计！这表明我们的误差反向传播实现是正确的。

💡注意：由于计算机浮点数精度限制，两种方法的结果完全相等的情况很少见。但只要误差足够小（如小于10−710^{-7}10−7），就可以认为实现正确。

🚀 使用误差反向传播进行训练

最后，我们来看完整的训练过程。与之前数值微分版本相比，唯一改变的就是梯度计算方法：

# 网络参数设置network=TwoLayerNet(input_size=784,hidden_size=50,output_size=10)learning_rate=0.1batch_size=100foriinrange(10000):# 随机选择小批量数据batch_mask=np.random.choice(train_size,batch_size)x_batch=x_train[batch_mask]t_batch=t_train[batch_mask]# 🎯 使用误差反向传播快速计算梯度！grad=network.gradient(x_batch,t_batch)# 参数更新forkeyin('W1','b1','W2','b2'):network.params[key]-=learning_rate*grad[key]# 每隔一个epoch输出一次精度ifi%iter_per_epoch==0:train_acc=network.accuracy(x_train,t_train)test_acc=network.accuracy(x_test,t_test)print(f"Epoch{i//iter_per_epoch}: Train Acc={train_acc}, Test Acc={test_acc}")