news 2026/5/3 3:41:14

原创丨一文读懂DDPM的发展史

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
原创丨一文读懂DDPM的发展史

作者:贾恩东 本文约5400字,建议阅读11分钟 本文介绍了 DDPM 的发展脉络、核心原理及多领域应用。

最近两年,AI生成领域真的是卷得不行,技术迭代快得让人跟不上,行业竞争也越来越激烈,尤其是2026年以来,先后出现了两个影响行业的大事件,先是字节跳动在2026年2月正式发布了Seedance 2.0,该产品一经推出就立刻火得一塌糊涂,直接搅动了AI视频生成赛道的格局。它主打“实时生成电影级短视频”,不用你懂专业剪辑,也不用复杂操作,普通人随便输几句简单的提示词,比如“氛围感海边日落vlog,电影感滤镜”,就能快速生成画面细腻、节奏流畅的短视频,直接把视频创作的门槛拉到了最低,让人人都能当“AI导演”。

紧接着在3月,OpenAI就宣布放弃了曾被寄予厚望的Sora视频生成业务,成为行业震动的大新闻。要知道,Sora当初可是号称能生成“电影级”视频的狠角色,2024年首次亮相时就震惊行业,2025年还推出了独立App登顶美区应用商店,引发好莱坞诸多导演和演员联名抵制。可最终还是没扛住竞争,再加上商业化路径没摸清楚、成本太高,在Seedance 2.0爆红之后,只能仓促收场。

就在最近一个多月,还有两个相关事件也引人注意,直接刷爆全网,彻底刷新了大家对AI创作的认知:第一个是B站UP主DDIM_OK做的AI短片《牌子》,要是在一年前说出来可能没人会相信,这部片子他就花了23天,既没有专业团队帮忙,也没有高额的制作成本,却凭着细腻到极致的画面质感、紧凑不拖沓的剧情,上线一周播放量就破了千万,到现在累计播放量快1800万了,连《流浪地球》导演郭帆都公开点赞,被网友们奉为“AI短片封神之作”;

第二个则是央视做的AI外宣短片《流金谷恩仇录》,这部片子才是真的“低成本高产出”,仅用48小时、3000块钱的算力成本就做完了,背后就一支20人左右的年轻团队,比起传统真人外宣短片,成本直接降了百倍。它十分有创意,用复古的邵氏武侠风格当外壳,把复杂的国际地缘博弈、资源争夺,变成了通俗易懂的江湖恩怨,比如里面的“流金谷”,其实对应着现实里的霍尔木兹海峡,谷里的宝贝“玄铁髓”就是石油,“白鹰盟”靠着武力垄断“玄铁髓”交易,还强推“白鹰金票”结算,明眼人都能看出来,这是在隐喻美元霸权的资源垄断和金融控制,而“波斯寨”的反抗,就是现实中那些反抗霸权、坚守自主的力量,甚至连角色服饰都藏着小心思——正面角色穿的是交领右衽的汉服,反派穿的是象征霸权的清代蜈蚣扣服饰,用衣冠细节传递文明立场。这部短片一上线,10小时点赞就破了百万,现在抖音播放量超3200万、点赞破221万,还火到了海外,网友们都催着要英语版,被夸是“顶级政治表达”“最易懂的国际局势说明书”。

其实这三个看似不相关的爆款,背后都藏着同一个核心技术——即早在2020年诞生的去噪扩散概率模型(Denoising Diffusion Probabilistic Models, DDPM)。正是因为这些年来DDPM一直在不断迭代升级,这些看似“不可能”的AI创作才得以落地。从实验室里的理论萌芽,到真正落地爆发,DDPM只用了十余年时间,就彻底重塑了生成式AI的格局,改变了我们内容创作的底层逻辑。

今天,我们就沿着时间线,一步步梳理DDPM的完整发展史,拆解它的进化脉络和应用落地,让你一文读懂这门“从噪声里变万物”、撑起无数AI爆款的核心技术。

一、生成模型的困境与扩散思想的萌芽(2015-2019)

在DDPM正式诞生之前,生成式AI领域的主流是GAN(生成对抗网络)。简单说,GAN就像一个“新手画匠”,靠生成器和判别器的相互博弈,直接模仿真实数据生成图像,但它始终有两个致命痛点绕不开:训练不稳定,容易出现“模式崩溃”(说白了就是只能生成少数几种样本);生成质量也有限,很难还原细节丰富的真实场景。这种困境,让生成式AI难以实现规模化应用,也为新模型的诞生留下了空间。

就在这时,一种全新的思路悄悄冒了出来——从非平衡热力学里找灵感,通过“逐步加噪、反向去噪”的过程,来学习数据的分布规律。2015年,Jascha Sohl-Dickstein等人在ICML会议上发表论文,第一次把扩散过程和生成模型结合起来,提出了扩散模型的雏形:让数据在多步加噪中慢慢变成纯噪声,再训练模型反向去噪,把原始数据还原回来。这便是DDPM最核心的思想源头。

这个想法确实很有创新性,但受限于当时的技术条件,早期扩散模型不仅训练复杂,采样效率也低得可怜,只能在小规模数据上做验证,根本没法和GAN抗衡。之后的几年里,研究者们一直在不断优化理论框架,到了2019年,Yang Song等人提出了基于分数的生成模型,把扩散过程和数据分布的梯度估计结合起来,这也为后来DDPM的诞生,打下了坚实的基础。这段时间里,扩散模型一直处在“实验室阶段”,没能走进大众视野,但“加噪-去噪”这个核心逻辑,已经为DDPM后来的爆发埋下了伏笔。

二、2020年:里程碑时刻——DDPM正式诞生,奠定现代扩散模型框架

2020年,Jonathan Ho等人在NeurIPS会议上发表了题为《Denoising Diffusion Probabilistic Models》的论文,正式提出了DDPM。这篇论文可以说是现代扩散模型的“奠基之作”,彻底解决了早期扩散模型的核心痛点,让“去噪生成”从理论真正变成了可行的技术,也标志着DDPM发展史的正式开端。

DDPM的核心思想其实很简单,就像一场“逆时光修复”,具体分为两步:

前向过程(加噪):这是一个固定的、不用学习的过程。大家可以想象一张清晰的猫的图片,我们分1000步,每一步都给它加一点点高斯噪声,直到最后一步,图片彻底变成一团随机噪声——就像一滴墨水滴进清水,慢慢扩散到均匀分布,再也看不清原来的样子。

反向过程(去噪):这才是DDPM需要重点学习的核心。我们训练一个U-Net结构的神经网络,让它学会“逆向操作”——从纯噪声开始,每一步都预测并去掉上一步加的噪声,经过1000步去噪后,最终还原出一张清晰、逼真的猫的图片。这里要注意一点,模型并不是直接学习“怎么生成图片”,而是学习“怎么预测噪声”,通过最小化预测噪声和真实噪声的差距,间接掌握数据的分布规律。

DDPM的革命性突破主要有两点:一是把扩散过程形式化成了马尔可夫链,简化了训练逻辑,还用了简单的均方误差(MSE)作为损失函数,让模型训练变得稳定,彻底解决了GAN训练不稳定的问题;二是通过重参数化技巧,大幅降低了计算复杂度,让模型能够处理高分辨率的图像。

不过话说回来,此时的DDPM虽然生成质量已经能媲美甚至超过当时的GAN,但仍有一个致命缺陷:采样速度太慢——生成一张图片要1000步迭代,耗时好几分钟,这也让它很难落地到实际应用中,只能一直停留在学术研究层面,成为DDPM发展路上的第一个“绊脚石”。

三、2021年:加速与优化——DDIM登场,让DDPM“跑起来”

到了2021年,DDPM的进化迎来了关键一步——Jiaming Song等人提出了DDIM(去噪扩散隐式模型),它的核心目标很明确,就是解决DDPM采样速度慢的痛点,让扩散模型真正具备实际应用的可能,推动DDPM从“实验室”向“工程化”迈出第一步。

DDPM的采样过程是“随机的马尔可夫链”,每一步都带有随机性,而且必须完成全部1000步才能生成合格样本;而DDIM则把它改成了“确定性采样”,引入了非马尔可夫链逻辑,去掉了采样过程中的随机噪声,实现了“固定输入→固定输出”的可复现生成,同时还允许跳步采样——只需要50-100步,就能生成和DDPM 1000步质量相当的样本,采样速度一下子提升了10-50倍。

同年,OpenAI团队也推出了两项关键优化,进一步完善了DDPM的技术体系:一是IDDPM(改进型DDPM),引入了可学习的方差和混合损失,进一步提升了生成质量;二是Guided Diffusion,通过更大规模的U-Net架构和无分类器引导(Classifier-Free Guidance)技术,第一次让扩散模型在图像生成质量上全面超越GAN,还实现了“文本引导生成”的雏形,为后来的文生图技术打下了基础。

这一年,扩散模型彻底摆脱了“慢”的标签,从学术研究走进了工程化探索的第一步,越来越多的研究者开始关注这个领域,也为后续DDPM的爆发式发展积累了足够的技术力量。

四、2022年:落地爆发——LDM与Stable Diffusion,让DDPM走进大众

DDPM和DDIM虽然解决了“稳定”和“快速”的问题,但还有一个瓶颈没突破:直接在像素空间进行扩散,计算量实在太大——一张512×512的图片,其像素维度高达百万级,普通消费级显卡根本扛不住训练和推理任务,这也成了阻碍DDPM普及的最后一道门槛,让它始终无法走进大众视野。

2022年,Stability AI团队提出了潜空间扩散模型(LDM),完美解决了这个问题;而基于LDM开发的Stable Diffusion,更是让DDPM的技术成果彻底走进了大众视野,直接引爆了AIGC浪潮,也让DDPM的发展迎来了“黄金期”。

LDM的核心创新就是“降维扩散”:不再直接在高维像素空间进行加噪和去噪,而是先用VAE(变分自编码器)把高分辨率图片压缩到低维的“潜空间”(比如把512×512的图片压缩成64×64的潜变量),在潜空间完成扩散过程后,再用VAE解码器把潜变量还原成高分辨率图像。这一步操作,直接把计算量降低了两个数量级,让普通消费级显卡(8GB显存)也能流畅运行扩散模型,轻松实现高分辨率图像生成。

Stable Diffusion在LDM的基础上,又进一步集成了CLIP文本编码器,实现了“文本→图像”的跨模态生成——只要输入一句文字描述,就能生成对应的图像,而且它还开源了模型权重和代码,让全球的开发者都能免费使用、二次开发。到这里,DDPM的技术理念,通过LDM和Stable Diffusion,真正落地到了实际应用中,催生出了AI绘画、图像编辑、创意设计等一系列场景,彻底改变了我们内容创作的方式。

同年,OpenAI推出的DALL·E 2,也基于DDPM的核心原理,结合CLIP的图文对齐技术,实现了更高质量的文生图,进一步推动了扩散模型的普及,让DDPM的技术影响力达到了新的高度。

五、2023年至今:迭代与泛化——从图像到多模态,走向更可控、更高效

随着Stable Diffusion的爆火,DDPM的技术体系进入了快速迭代期,核心方向主要围绕“高效化”“可控化”“多模态”三个维度展开,不断突破应用边界,让DDPM的发展更贴合实际需求,逐步走向工业化应用。

高效化升级:2023年,一致性模型(Consistency Models)问世,它把扩散过程“蒸馏”成了单步或几步生成,实现了“1-4步就能生成高质量样本”,差不多接近实时生成速度,彻底解决了扩散模型“采样慢”的最后一个痛点;同时,LCM(潜空间一致性模型)把这一优势和潜空间扩散结合起来,让普通消费级设备也能实现实时生成,进一步降低了DDPM的应用门槛。

可控化提升:ControlNet的出现,让扩散模型从“自由生成”变成了“精准可控”。它通过给U-Net添加控制分支,结合姿态图、深度图、边缘图等结构化条件,实现了“按指定结构生成”——比如输入一张人物姿态图,就能生成对应姿态的人物图像,大大提升了生成内容的实用性,广泛应用在设计、影视、游戏等领域,让DDPM的应用场景更加丰富。

多模态泛化:DDPM的核心逻辑不再局限于图像生成,而是扩展到了音频、视频、3D、分子结构等多个领域。音频生成领域,AudioLDM、MusicGen基于扩散原理,实现了文生语音、文生音乐;视频生成领域,Runway Gen-2、Pika Labs把2D扩散扩展到3D时空维度,实现了文本生成视频;3D生成领域,Stable Zero123、Shap-E能从单张图片生成3D模型;甚至在科学研究领域,扩散模型还被用来生成分子结构,助力新药研发,让DDPM的价值超越了内容创作。

除此之外,DiT(扩散Transformer)的出现,用Transformer替代了传统的U-Net,进一步提升了模型的可扩展性和生成质量;SDXL(Stable Diffusion XL)则通过更大规模的模型架构,实现了更高分辨率、更细腻的图像生成,推动扩散模型向工业化应用稳步迈进,也让DDPM的技术体系更加完善。

六、通俗总结:DDPM的发展史,就是一部“突破与落地”的进化史

如果用一句话概括DDPM的发展史,其实就是:从2015年的思想萌芽,到2020年的正式诞生,再到2021年的加速优化、2022年的落地爆发,最后到如今的多模态泛化,DDPM一步步解决了“不稳定、速度慢、门槛高”的痛点,从实验室理论成长为改变世界的核心技术。而DDPM本身,就是一种“从噪声中还原美好”的生成模型,核心靠“逐步加噪→反向去噪”的过程,学习真实数据的分布,最终实现“从无到有”的生成。

它的发展意义,在于彻底改变了生成式AI的格局:

解决了GAN的痛点:训练稳定,不会出现模式崩溃,能生成更多样、更逼真的样本;

降低了生成模型的门槛:通过潜空间扩散等优化,让普通设备也能运行,推动了AIGC的普及;

可扩展性极强:从图像到音频、视频、3D,甚至科学研究,几乎覆盖了所有生成类场景;

逻辑优雅易懂:核心就是“加噪-去噪”,比起GAN的“对抗博弈”,更容易理解和优化。

短短十余年,DDPM完成了从“实验室理论”到“改变世界”的跨越。它不只是一门技术,更像是一种“用简单逻辑解决复杂问题”的思路——把复杂的生成过程拆解开,用“逐步优化”的方式,实现了“从噪声到万物”的奇迹,也书写了一段属于生成式AI的进化史诗。

七、未来展望:DDPM的下一站,会是Flow Match吗

回顾DDPM的发展史,每一次突破都源于对“更优、更实用”的追求,而未来,DDPM的技术体系还会继续进化,主要集中在三个方向:一是更高效,实现“实时生成”,进一步降低设备门槛,让更多人能用上;二是更可控,实现更精细的生成控制,满足工业化应用的需求;三是更通用,构建统一的多模态扩散框架,实现文本、图像、音频、视频的一体化生成,打破领域边界。

随着技术的不断迭代,DDPM会继续渗透到更多领域,不仅能改变内容创作的方式,还能助力科学研究、工业设计、医疗健康等行业的创新,让“AI生成”真正融入我们生活的方方面面。值得一提的是,近年来兴起的Flow Match(流匹配)模型,并不属于DDPM本身,而是DDPM所属的扩散模型体系的重要延伸与优化方向——它以“导航式生成”为核心,把去噪过程转化成速度向量预测,不用复杂的多步迭代,就能把采样步数压缩到1-4步,大幅提升生成效率还不损失质量,算是DDPM技术体系向“实时化、轻量化”进化的重要探索,也为后续扩散模型的落地应用开辟了新路径。

补充说明:Flow Match与DDPM的核心关联,其实是“共享扩散生成的底层逻辑”,两者都围绕“从噪声到真实数据的转化”展开,但DDPM以“逐步去噪、预测噪声”为核心,而Flow Match则通过直接预测速度向量简化生成过程,算是对DDPM高效化方向的进一步突破,并不是DDPM的分支或改进版本,也为DDPM的未来发展提供了新的思路。

参考文献

Sohl-Dickstein J, Weiss E, Maheswaranathan N, et al. Deep Unsupervised Learning using Nonequilibrium Thermodynamics[C]//International Conference on Machine Learning. PMLR, 2015: 2256-2265.(扩散模型雏形,首次提出“加噪-去噪”核心逻辑,为DDPM奠定思想基础)

Ho J, Jain A, Abbeel P. Denoising Diffusion Probabilistic Models[J]. arXiv preprint arXiv:2006.11239, 2020.(DDPM奠基性论文,系统化扩散概率模型框架,标志DDPM正式诞生)

Song J, Meng C, Ermon S. Denoising Diffusion Implicit Models[J]. arXiv preprint arXiv:2010.02502, 2021.(DDIM提出,解决DDPM采样速度慢的核心痛点,推动其工程化)

Nichol A, Dhariwal P. Improved Denoising Diffusion Probabilistic Models[J]. arXiv preprint arXiv:2102.09672, 2021.(IDDPM,优化DDPM训练稳定性与生成质量,完善技术体系)

Rombach R, Blattmann A, Lorenz D, et al. High-Resolution Image Synthesis with Latent Diffusion Models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.(LDM提出,为Stable Diffusion奠定基础,推动DDPM落地普及)

Lipman Y, Havasi M, Holderrieth P, et al. Flow Matching Guide and Code[J]. arXiv preprint arXiv:2412.06264, 2024.(Flow Match核心文献,拓展扩散模型高效化路径,为DDPM未来发展提供思路)

Luo C. Understanding Diffusion Models: A Unified Perspective[J]. arXiv preprint arXiv:2208.11970, 2022.(扩散模型统一视角综述,助力理解DDPM核心原理与发展脉络)

编辑:于腾凯

校对:林亦霖

欢迎在评论区留言与本文作者互动交流!

作者简介

贾恩东,9字清华本科,后于国科大就读博士,现为中国软件博士后。主要研究方向:传统机器学习,传统数字图像处理,深度学习与目标检测,少样本学习,自监督学习等。

数据派研究部介绍

数据派研究部成立于2017年初,以兴趣为核心划分多个组别,各组既遵循研究部整体的知识分享实践项目规划,又各具特色:

算法模型组:积极组队参加kaggle等比赛,原创手把手教系列文章;

调研分析组:通过专访等方式调研大数据的应用,探索数据产品之美;

系统平台组:追踪大数据&人工智能系统平台技术前沿,对话专家;

自然语言处理组:重于实践,积极参加比赛及策划各类文本分析项目;

制造业大数据组:秉工业强国之梦,产学研政结合,挖掘数据价值;

数据可视化组:将信息与艺术融合,探索数据之美,学用可视化讲故事;

网络爬虫组:爬取网络信息,配合其他各组开发创意项目。

点击文末“阅读原文”,报名数据派研究部志愿者,总有一组适合你~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

未经许可的转载以及改编者,我们将依法追究其法律责任。

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

点击“阅读原文”加入组织~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/14 12:06:39

Simbody部署与打包指南:CMake配置与跨平台构建

Simbody部署与打包指南:CMake配置与跨平台构建 【免费下载链接】simbody High-performance C multibody dynamics/physics library for simulating articulated biomechanical and mechanical systems like vehicles, robots, and the human skeleton. 项目地址: …

作者头像 李华
网站建设 2026/4/15 13:47:00

IAR网络同传后许可证失效的深度解析与离线激活方案

1. IAR网络同传后许可证失效现象解析 第一次遇到IAR网络同传后子机许可证失效的问题时,我差点以为遇到了软件bug。当时在实验室部署了30台电脑,母机安装IAR Embedded Workbench 10.30.1后通过网络同传克隆到其他机器。结果发现除了母机,所有子…

作者头像 李华
网站建设 2026/4/16 5:14:09

Ralph测试自动化:如何让AI代理编写可靠的测试用例

Ralph测试自动化:如何让AI代理编写可靠的测试用例 【免费下载链接】ralph Ralph is an autonomous AI agent loop that runs repeatedly until all PRD items are complete. 项目地址: https://gitcode.com/GitHub_Trending/ralph1/ralph Ralph是一个自主AI…

作者头像 李华
网站建设 2026/5/2 17:33:23

开源许可证(License)详解:MIT、GPL、Apache该如何选择?

开源许可证(License)详解:MIT、GPL、Apache该如何选择? 在软件开发中,选择合适的开源许可证至关重要。不同的许可证决定了代码的使用、修改和分发方式,直接影响项目的商业化和社区协作。MIT、GPL和Apache是…

作者头像 李华