news 2026/4/16 12:40:14

从数值微分到梯度下降:深度学习的基石

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从数值微分到梯度下降:深度学习的基石

从数值微分到梯度下降:深度学习的基石

在深度学习的世界里,梯度下降算法是训练神经网络的基石。而要理解梯度下降,首先要掌握数值微分这个关键概念。

导数:变化的瞬间捕捉

想象你正在跑马拉松,前10分钟跑了2千米。你的平均速度是0.2千米/分,但真正的速度是瞬间变化量,这就是导数的本质。

数学上,导数定义为:
df(x)dx=lim⁡h→0f(x+h)−f(x)h \frac{df(x)}{dx} = \lim_{h \to 0} \frac{f(x+h) - f(x)}{h}dxdf(x)=h0limhf(x+h)f(x)

数值微分的实现陷阱

初学者可能会这样实现:

# 不好的实现示例defnumerical_diff(f,x):h=10e-50return(f(x+h)-f(x))/h

这里有两个问题:

  1. 舍入误差:h太小会导致计算机精度问题
  2. 前向差分不准确:不是真正的切线斜率

改进方案:中心差分法

defnumerical_diff(f,x):h=1e-4# 0.0001,避免舍入误差return(f(x+h)-f(x-h))/(2*h)# 中心差分,更准确

图4-5展示了真导数(蓝色切线)与数值微分(红色近似线)的区别:

  • 前向差分:计算(x+h)和x之间的斜率
  • 中心差分:以x为中心,计算左右两侧的平均斜率,误差更小

实战示例:简单函数的数值微分

考虑二次函数:
y=0.01x2+0.1x y = 0.01x^2 + 0.1xy=0.01x2+0.1x

Python实现:

deffunction_1(x):return0.01*x**2+0.1*x# 计算在x=5处的数值微分print(numerical_diff(function_1,5))# 输出:0.1999999999990898

解析解为dydx=0.02x+0.1\frac{dy}{dx} = 0.02x + 0.1dxdy=0.02x+0.1,在x=5处真导数为0.2。我们的数值微分结果0.1999999999990898误差极小!

图4-7展示了用数值微分计算的切线:在x=5和x=10处,红色切线完美贴合蓝色曲线。

多变量函数:偏导数的挑战

当函数有多个变量时,如:
f(x0,x1)=x02+x12 f(x_0, x_1) = x_0^2 + x_1^2f(x0,x1)=x02+x12

我们需要计算偏导数:只对一个变量求导,其他变量视为常数。

计算x0=3,x1=4x_0=3, x_1=4x0=3,x1=4时关于x0x_0x0的偏导数:

# 固定x1=4,创建单变量函数deffunction_tmp1(x0):returnx0*x0+4.0**2.0print(numerical_diff(function_tmp1,3.0))# 输出:6.00000000000378

解析解 vs 数值解

  • 解析求导:基于数学公式推导,如ddxx2=2x\frac{d}{dx}x^2 = 2xdxdx2=2x
  • 数值微分:基于微小差分近似,有计算误差但通用性强

为什么这对深度学习重要?

  1. 神经网络训练:梯度下降需要计算损失函数对每个参数的偏导数
  2. 反向传播:核心是链式法则求导,数值微分可用于验证
  3. 无法解析求导时:某些复杂函数没有简单导数公式,数值微分是唯一选择

关键要点

  1. 数值微分用有限差分近似导数
  2. 中心差分比前向差分更准确
  3. 偏导数是多变量函数沿特定方向的变化率
  4. h的选择很关键:太小有舍入误差,太大近似不准确
  5. 数值微分是理解梯度的第一步,为优化算法奠定基础

掌握数值微分不仅帮助你理解数学原理,更是打开深度学习大门的钥匙。在下篇文章中,我们将探讨如何从数值微分扩展到梯度下降算法,敬请期待!


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/12 11:15:27

测试语音助手可访问性:交互设计的核心挑战与系统性解决方案

——面向软件测试工程师的深度指南 一、语音交互可访问性测试的行业意义 随着全球数字无障碍立法加速(如欧盟EAA法案、美国Section 508),语音助手可访问性已成为合规刚需。测试从业者需超越基础功能验证,深入交互设计层&#xff…

作者头像 李华
网站建设 2026/4/11 22:45:31

2026 年 PHP 8.4 依然重要:跳到 8.5 之前你该掌握的特性

2026 年 PHP 8.4 依然重要:跳到 8.5 之前你该掌握的特性 为什么 PHP 8.4 在 2026 年仍然相关 如果你的团队计划"今年上 PHP 8.5",很可能会先聊到 PHP 8.4——不管你愿不愿意。 无聊但重要的原因是:支持窗口。 根据官方 PHP 支持…

作者头像 李华
网站建设 2026/4/1 16:25:52

GLM-4.6V-Flash-WEB部署教程:NVIDIA驱动配置指南

GLM-4.6V-Flash-WEB部署教程:NVIDIA驱动配置指南 智谱最新开源,视觉大模型。 1. 引言 1.1 学习目标 本文旨在为开发者提供一份从零开始部署 GLM-4.6V-Flash-WEB 视觉大模型的完整实践指南。通过本教程,您将掌握: 如何正确配置 …

作者头像 李华
网站建设 2026/4/10 4:04:05

数字信号处理篇---DFT中的混叠

DFT中的混叠:数字世界的“分身术”骗局🎭 核心比喻:旋转木马照相馆想象一个旋转木马游乐场,它:每10秒转一圈上面有8匹不同颜色的马(红橙黄绿青蓝紫白)你站在外面用相机拍照,但相机设…

作者头像 李华
网站建设 2026/4/10 17:16:39

手机也能跑的大模型:HY-MT1.5-1.8B效果实测分享

手机也能跑的大模型:HY-MT1.5-1.8B效果实测分享 随着全球多语言交流需求的爆发式增长,高质量、低延迟的翻译能力正从“增值服务”演变为智能终端的核心功能。然而,传统云端翻译方案存在网络依赖、隐私泄露和响应延迟等问题,难以满…

作者头像 李华
网站建设 2026/4/13 9:31:31

AI人脸隐私卫士能否部署在NAS?群晖私有化打码实战

AI人脸隐私卫士能否部署在NAS?群晖私有化打码实战 1. 引言:为何需要本地化人脸自动打码? 随着智能设备的普及,家庭照片、监控截图、旅行合影等数字影像数据呈爆炸式增长。这些图像中往往包含大量人脸信息,一旦上传至…

作者头像 李华