news 2026/5/8 19:22:23

深度学习工作原理解析与理论极限

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
深度学习工作原理解析与理论极限

ICLR:深度学习为何有效,其极限何在?

近期深度学习理论中的两个趋势是对双下降现象的检验以及对神经核方法更贴近现实的研究。

会议:ICLR 2023

在今年的国际学习表征会议(ICLR)上,宾夕法尼亚大学放射学与电气工程教授、某机构学者勒内·维达尔担任高级领域主席,负责监督一个负责评估会议论文的评审团队。维达尔表示,他的团队重点关注的论文主题是深度学习理论。

“尽管表示学习和深度学习取得了巨大成功,并为许多应用领域带来了显著成果,但深度网络仍然是黑箱,”维达尔解释道。“如何设计深度网络仍然是一门艺术;每个数据集上都有大量的试错。因此,总的来说,深度学习数学领域的目标是拥有能够保证深度网络性能的定理和数学证明。”

“你可以提出这样的问题:‘为什么深度网络能够从一个数据集泛化到另一个数据集?’‘能否有一个定理告诉你新数据集上的分类误差与训练数据集上的分类误差之间的关系?’‘能否将该误差的上界表示为训练样本数量的函数?’”

“还有一些与优化相关的问题。如今,你需要在有时多达数十亿的参数上最小化一个损失函数。由于优化问题规模巨大,且训练样本众多,出于计算原因,只能使用非常简单的优化方法。你能证明这些非凸问题的收敛性吗?你能理解收敛到什么结果吗?为什么这些极其简单的优化方法对于这些极其复杂的问题却如此成功?”

双下降现象

维达尔指出,最近深度学习理论中有两个主题引起了越来越多的关注。第一个是所谓的双下降现象。人工智能领域的传统观点认为,神经网络的规模必须根据所解决的问题和可用训练数据量进行仔细调整。如果网络太小,无法学习数据中的复杂模式;但如果网络过大,它可能仅仅记住训练集中所有数据的正确答案——这是一种特别严重的过拟合情况——并且无法泛化到新的输入。

其结果是,对于给定问题和给定训练数据集,随着神经网络规模的增长,其在测试集上对未见过数据的错误率会下降。然而,在某个点上,随着网络开始过拟合数据,错误率再次上升。但最近几年,一些论文报告了令人惊讶的结果:随着网络继续增长,错误率再次下降。这就是双下降现象——没人能确切知道其发生的原因。

“随着模型规模增长,错误率先下降,然后随着过拟合而回升,”维达尔解释道。“错误率在所谓的插值极限处达到峰值,此时在训练过程中恰好能达到零误差,因为网络足够大可以记忆。但从那之后,测试误差再次下降。已经有很多论文试图解释这种现象发生的原因。”

神经正切核

维达尔说,深度网络理论中另一个有趣的近期趋势是基于神经正切核的新形式分析。

“过去——比如说2000年——我们进行学习的方式是使用所谓的核方法,”维达尔解释道。“核方法基于将数据通过固定嵌入映射到一个非常高维的空间,在那里一切看起来都是线性的。我们可以在该嵌入空间中使用经典的线性学习技术,但嵌入空间是固定的。”

“你可以把深度学习看作是学习那种嵌入——将输入数据映射到某个高维空间。事实上,这正是表示学习。神经正切核机制——一种初始化类型、一种神经网络类型、一种训练方式——是一种可以用核来近似深度网络学习动态的机制。因此,你可以使用经典技术来理解它们为何能泛化以及为何不能泛化。”

“这种机制非常不现实——例如无限宽的网络或训练过程中权重变化不大的初始化。在这种人为和特殊的环境下,事情更简单,我们可以更好地理解它们。当前的趋势是如何摆脱这些不现实的假设,并承认问题的困难性:你确实希望权重在训练过程中发生变化,因为如果它们不变,你就学不到太多东西。”

事实上,维达尔本人在一篇被今年的人工智能与统计会议(AISTATS)接收的论文中探讨了这个话题,该论文的合著者是他之前在约翰霍普金斯大学的研究团队。

“我们试图摆脱的三个假设是:第一,我们能否得到适用于有限宽度网络而非无限宽度网络的定理?第二,我们能否得到适用于具有有限步长的类梯度下降方法的定理?因为许多早期定理假设步长非常非常小——比如无穷小。第三,我们放宽的假设是关于初始化的假设,这变得更加普遍。”

表示学习的局限性

当ICLR于2013年创立时,它是一个供研究人员探索机器学习方法(如核方法)之外替代方案的场所,这些传统方法以固定的、预设的方式表示数据。然而现在,使用学习型表示的深度学习已经主导了机器学习领域,ICLR与其他主要机器学习会议之间的差异已经缩小。

然而,作为在约翰霍普金斯大学担任生物医学工程教授20年的人,维达尔敏锐地意识到表示学习的局限性。他表示,对于某些应用,领域知识仍然至关重要。

“这发生在数据或标签可能不丰富的领域,”他解释道。“例如,在医学领域就是如此,可能一项研究只有100名患者,或者你无法将数据放在每个人都能标注的网站上。”

“举一个具体的例子,我曾有一个项目需要制作一种血液测试,需要将白细胞分类为不同类型。没有人会去拍摄数百万个细胞的视频,你也不会让病理学家像计算机视觉那样标注每一个细胞来做目标检测。”

“所以我们能得到的只有血液测试的实际结果:浓度是多少?你可能有一百万个第一类、第二类和第三类的细胞,但只有这些非常弱的标签。但领域专家说,我们可以通过在这里或那里添加某些化学试剂来进行细胞纯化,然后进行离心等等,然后在这个样本中得到只有一种类型的细胞。因此你可以假装有了标签,因为我们知道具有不同标签的细胞在这种化学处理下无法存活。我们说,‘哇,太棒了!’”

“如果你与100%都是数据科学家和机器学习专家的人一起做事,他们倾向于认为你只需要更大的网络和更多的数据。但我认为,就像在某机构一样,你需要从客户的角度逆向思考,你需要解决实际问题,而解决方案不总是更多的数据和更多的标注。”

研究领域:机器学习

标签:可解释人工智能, 深度学习, ICLR, 学术界在某机构FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/8 19:21:17

5分钟快速部署灵毓秀-牧神-造相Z-Turbo:MobaXterm远程连接实战体验

5分钟快速部署灵毓秀-牧神-造相Z-Turbo:MobaXterm远程连接实战体验 1. 准备工作与环境确认 1.1 获取镜像与基础信息 灵毓秀-牧神-造相Z-Turbo是基于Xinference部署的文生图模型服务,专为生成《牧神记》中灵毓秀角色图像优化。该镜像预装了所有依赖环境…

作者头像 李华
网站建设 2026/4/21 2:51:17

第六章:异步访问的同步:6.3.1 dma_resv_usage 层级机制详解

1. 概述 dma_resv(DMA reservation object)是 Linux 内核中管理 GPU buffer 同步的核心机制。每个 dma_resv 对象维护一组 dma_fence,用于追踪对该 buffer 的各种操作。 enum dma_resv_usage 定义了 fence 的用途级别,控制"谁…

作者头像 李华
网站建设 2026/4/12 9:48:17

SeqGPT-560m一键部署教程:基于Docker的快速环境搭建

SeqGPT-560m一键部署教程:基于Docker的快速环境搭建 1. 引言 想不想在10分钟内拥有一个强大的文本理解AI助手?SeqGPT-560m就是这样一个神奇的工具——它不需要复杂的训练过程,就能帮你完成文本分类、实体识别、阅读理解等各种自然语言理解任…

作者头像 李华
网站建设 2026/4/17 3:58:31

Ostrakon-VL 终端 Anaconda 虚拟环境管理:多项目 Python 依赖隔离指南

Ostrakon-VL 终端 Anaconda 虚拟环境管理:多项目 Python 依赖隔离指南 1. 为什么需要虚拟环境管理 在开发Ostrakon-VL这类计算机视觉项目时,我们经常会遇到这样的困扰:项目A需要PyTorch 1.8,而项目B需要PyTorch 2.0,…

作者头像 李华
网站建设 2026/4/12 20:52:01

用 AI Coding 工具生成 万字奇幻世界设定的实践记录狗

一、Actor 模型:不是并发技巧,而是领域单元 Actor 模型的本质是: Actor 是独立运行的实体 Actor 之间只通过消息交互 Actor 内部状态不可被外部直接访问 Actor 自行决定如何处理收到的消息 Actor 模型真正解决的是: 如何在不共享状…

作者头像 李华
网站建设 2026/4/12 15:52:09

AI超清画质增强镜像优化指南:常见问题排查与性能提升建议

AI超清画质增强镜像优化指南:常见问题排查与性能提升建议 1. 镜像核心能力与适用场景 AI超清画质增强镜像基于OpenCV EDSR模型构建,能够将低分辨率图像智能放大3倍,同时修复细节和去除噪点。这项技术在多个领域都有广泛应用价值&#xff1a…

作者头像 李华