原创丨一文读懂DDPM的发展史-编程阁

作者：贾恩东 本文约5400字，建议阅读11分钟 本文介绍了 DDPM 的发展脉络、核心原理及多领域应用。

最近两年，AI生成领域真的是卷得不行，技术迭代快得让人跟不上，行业竞争也越来越激烈，尤其是2026年以来，先后出现了两个影响行业的大事件，先是字节跳动在2026年2月正式发布了Seedance 2.0，该产品一经推出就立刻火得一塌糊涂，直接搅动了AI视频生成赛道的格局。它主打“实时生成电影级短视频”，不用你懂专业剪辑，也不用复杂操作，普通人随便输几句简单的提示词，比如“氛围感海边日落vlog，电影感滤镜”，就能快速生成画面细腻、节奏流畅的短视频，直接把视频创作的门槛拉到了最低，让人人都能当“AI导演”。

紧接着在3月，OpenAI就宣布放弃了曾被寄予厚望的Sora视频生成业务，成为行业震动的大新闻。要知道，Sora当初可是号称能生成“电影级”视频的狠角色，2024年首次亮相时就震惊行业，2025年还推出了独立App登顶美区应用商店，引发好莱坞诸多导演和演员联名抵制。可最终还是没扛住竞争，再加上商业化路径没摸清楚、成本太高，在Seedance 2.0爆红之后，只能仓促收场。

就在最近一个多月，还有两个相关事件也引人注意，直接刷爆全网，彻底刷新了大家对AI创作的认知：第一个是B站UP主DDIM_OK做的AI短片《牌子》，要是在一年前说出来可能没人会相信，这部片子他就花了23天，既没有专业团队帮忙，也没有高额的制作成本，却凭着细腻到极致的画面质感、紧凑不拖沓的剧情，上线一周播放量就破了千万，到现在累计播放量快1800万了，连《流浪地球》导演郭帆都公开点赞，被网友们奉为“AI短片封神之作”；

第二个则是央视做的AI外宣短片《流金谷恩仇录》，这部片子才是真的“低成本高产出”，仅用48小时、3000块钱的算力成本就做完了，背后就一支20人左右的年轻团队，比起传统真人外宣短片，成本直接降了百倍。它十分有创意，用复古的邵氏武侠风格当外壳，把复杂的国际地缘博弈、资源争夺，变成了通俗易懂的江湖恩怨，比如里面的“流金谷”，其实对应着现实里的霍尔木兹海峡，谷里的宝贝“玄铁髓”就是石油，“白鹰盟”靠着武力垄断“玄铁髓”交易，还强推“白鹰金票”结算，明眼人都能看出来，这是在隐喻美元霸权的资源垄断和金融控制，而“波斯寨”的反抗，就是现实中那些反抗霸权、坚守自主的力量，甚至连角色服饰都藏着小心思——正面角色穿的是交领右衽的汉服，反派穿的是象征霸权的清代蜈蚣扣服饰，用衣冠细节传递文明立场。这部短片一上线，10小时点赞就破了百万，现在抖音播放量超3200万、点赞破221万，还火到了海外，网友们都催着要英语版，被夸是“顶级政治表达”“最易懂的国际局势说明书”。

其实这三个看似不相关的爆款，背后都藏着同一个核心技术——即早在2020年诞生的去噪扩散概率模型（Denoising Diffusion Probabilistic Models, DDPM）。正是因为这些年来DDPM一直在不断迭代升级，这些看似“不可能”的AI创作才得以落地。从实验室里的理论萌芽，到真正落地爆发，DDPM只用了十余年时间，就彻底重塑了生成式AI的格局，改变了我们内容创作的底层逻辑。

今天，我们就沿着时间线，一步步梳理DDPM的完整发展史，拆解它的进化脉络和应用落地，让你一文读懂这门“从噪声里变万物”、撑起无数AI爆款的核心技术。

一、生成模型的困境与扩散思想的萌芽（2015-2019）

在DDPM正式诞生之前，生成式AI领域的主流是GAN（生成对抗网络）。简单说，GAN就像一个“新手画匠”，靠生成器和判别器的相互博弈，直接模仿真实数据生成图像，但它始终有两个致命痛点绕不开：训练不稳定，容易出现“模式崩溃”（说白了就是只能生成少数几种样本）；生成质量也有限，很难还原细节丰富的真实场景。这种困境，让生成式AI难以实现规模化应用，也为新模型的诞生留下了空间。

就在这时，一种全新的思路悄悄冒了出来——从非平衡热力学里找灵感，通过“逐步加噪、反向去噪”的过程，来学习数据的分布规律。2015年，Jascha Sohl-Dickstein等人在ICML会议上发表论文，第一次把扩散过程和生成模型结合起来，提出了扩散模型的雏形：让数据在多步加噪中慢慢变成纯噪声，再训练模型反向去噪，把原始数据还原回来。这便是DDPM最核心的思想源头。

这个想法确实很有创新性，但受限于当时的技术条件，早期扩散模型不仅训练复杂，采样效率也低得可怜，只能在小规模数据上做验证，根本没法和GAN抗衡。之后的几年里，研究者们一直在不断优化理论框架，到了2019年，Yang Song等人提出了基于分数的生成模型，把扩散过程和数据分布的梯度估计结合起来，这也为后来DDPM的诞生，打下了坚实的基础。这段时间里，扩散模型一直处在“实验室阶段”，没能走进大众视野，但“加噪-去噪”这个核心逻辑，已经为DDPM后来的爆发埋下了伏笔。

二、2020年：里程碑时刻——DDPM正式诞生，奠定现代扩散模型框架

2020年，Jonathan Ho等人在NeurIPS会议上发表了题为《Denoising Diffusion Probabilistic Models》的论文，正式提出了DDPM。这篇论文可以说是现代扩散模型的“奠基之作”，彻底解决了早期扩散模型的核心痛点，让“去噪生成”从理论真正变成了可行的技术，也标志着DDPM发展史的正式开端。

DDPM的核心思想其实很简单，就像一场“逆时光修复”，具体分为两步：

前向过程（加噪）：这是一个固定的、不用学习的过程。大家可以想象一张清晰的猫的图片，我们分1000步，每一步都给它加一点点高斯噪声，直到最后一步，图片彻底变成一团随机噪声——就像一滴墨水滴进清水，慢慢扩散到均匀分布，再也看不清原来的样子。

反向过程（去噪）：这才是DDPM需要重点学习的核心。我们训练一个U-Net结构的神经网络，让它学会“逆向操作”——从纯噪声开始，每一步都预测并去掉上一步加的噪声，经过1000步去噪后，最终还原出一张清晰、逼真的猫的图片。这里要注意一点，模型并不是直接学习“怎么生成图片”，而是学习“怎么预测噪声”，通过最小化预测噪声和真实噪声的差距，间接掌握数据的分布规律。

DDPM的革命性突破主要有两点：一是把扩散过程形式化成了马尔可夫链，简化了训练逻辑，还用了简单的均方误差（MSE）作为损失函数，让模型训练变得稳定，彻底解决了GAN训练不稳定的问题；二是通过重参数化技巧，大幅降低了计算复杂度，让模型能够处理高分辨率的图像。

不过话说回来，此时的DDPM虽然生成质量已经能媲美甚至超过当时的GAN，但仍有一个致命缺陷：采样速度太慢——生成一张图片要1000步迭代，耗时好几分钟，这也让它很难落地到实际应用中，只能一直停留在学术研究层面，成为DDPM发展路上的第一个“绊脚石”。

三、2021年：加速与优化——DDIM登场，让DDPM“跑起来”

到了2021年，DDPM的进化迎来了关键一步——Jiaming Song等人提出了DDIM（去噪扩散隐式模型），它的核心目标很明确，就是解决DDPM采样速度慢的痛点，让扩散模型真正具备实际应用的可能，推动DDPM从“实验室”向“工程化”迈出第一步。

DDPM的采样过程是“随机的马尔可夫链”，每一步都带有随机性，而且必须完成全部1000步才能生成合格样本；而DDIM则把它改成了“确定性采样”，引入了非马尔可夫链逻辑，去掉了采样过程中的随机噪声，实现了“固定输入→固定输出”的可复现生成，同时还允许跳步采样——只需要50-100步，就能生成和DDPM 1000步质量相当的样本，采样速度一下子提升了10-50倍。

同年，OpenAI团队也推出了两项关键优化，进一步完善了DDPM的技术体系：一是IDDPM（改进型DDPM），引入了可学习的方差和混合损失，进一步提升了生成质量；二是Guided Diffusion，通过更大规模的U-Net架构和无分类器引导（Classifier-Free Guidance）技术，第一次让扩散模型在图像生成质量上全面超越GAN，还实现了“文本引导生成”的雏形，为后来的文生图技术打下了基础。

这一年，扩散模型彻底摆脱了“慢”的标签，从学术研究走进了工程化探索的第一步，越来越多的研究者开始关注这个领域，也为后续DDPM的爆发式发展积累了足够的技术力量。

四、2022年：落地爆发——LDM与Stable Diffusion，让DDPM走进大众

DDPM和DDIM虽然解决了“稳定”和“快速”的问题，但还有一个瓶颈没突破：直接在像素空间进行扩散，计算量实在太大——一张512×512的图片，其像素维度高达百万级，普通消费级显卡根本扛不住训练和推理任务，这也成了阻碍DDPM普及的最后一道门槛，让它始终无法走进大众视野。

2022年，Stability AI团队提出了潜空间扩散模型（LDM），完美解决了这个问题；而基于LDM开发的Stable Diffusion，更是让DDPM的技术成果彻底走进了大众视野，直接引爆了AIGC浪潮，也让DDPM的发展迎来了“黄金期”。

LDM的核心创新就是“降维扩散”：不再直接在高维像素空间进行加噪和去噪，而是先用VAE（变分自编码器）把高分辨率图片压缩到低维的“潜空间”（比如把512×512的图片压缩成64×64的潜变量），在潜空间完成扩散过程后，再用VAE解码器把潜变量还原成高分辨率图像。这一步操作，直接把计算量降低了两个数量级，让普通消费级显卡（8GB显存）也能流畅运行扩散模型，轻松实现高分辨率图像生成。

Stable Diffusion在LDM的基础上，又进一步集成了CLIP文本编码器，实现了“文本→图像”的跨模态生成——只要输入一句文字描述，就能生成对应的图像，而且它还开源了模型权重和代码，让全球的开发者都能免费使用、二次开发。到这里，DDPM的技术理念，通过LDM和Stable Diffusion，真正落地到了实际应用中，催生出了AI绘画、图像编辑、创意设计等一系列场景，彻底改变了我们内容创作的方式。

同年，OpenAI推出的DALL·E 2，也基于DDPM的核心原理，结合CLIP的图文对齐技术，实现了更高质量的文生图，进一步推动了扩散模型的普及，让DDPM的技术影响力达到了新的高度。

五、2023年至今：迭代与泛化——从图像到多模态，走向更可控、更高效

随着Stable Diffusion的爆火，DDPM的技术体系进入了快速迭代期，核心方向主要围绕“高效化”“可控化”“多模态”三个维度展开，不断突破应用边界，让DDPM的发展更贴合实际需求，逐步走向工业化应用。

高效化升级：2023年，一致性模型（Consistency Models）问世，它把扩散过程“蒸馏”成了单步或几步生成，实现了“1-4步就能生成高质量样本”，差不多接近实时生成速度，彻底解决了扩散模型“采样慢”的最后一个痛点；同时，LCM（潜空间一致性模型）把这一优势和潜空间扩散结合起来，让普通消费级设备也能实现实时生成，进一步降低了DDPM的应用门槛。

可控化提升：ControlNet的出现，让扩散模型从“自由生成”变成了“精准可控”。它通过给U-Net添加控制分支，结合姿态图、深度图、边缘图等结构化条件，实现了“按指定结构生成”——比如输入一张人物姿态图，就能生成对应姿态的人物图像，大大提升了生成内容的实用性，广泛应用在设计、影视、游戏等领域，让DDPM的应用场景更加丰富。

多模态泛化：DDPM的核心逻辑不再局限于图像生成，而是扩展到了音频、视频、3D、分子结构等多个领域。音频生成领域，AudioLDM、MusicGen基于扩散原理，实现了文生语音、文生音乐；视频生成领域，Runway Gen-2、Pika Labs把2D扩散扩展到3D时空维度，实现了文本生成视频；3D生成领域，Stable Zero123、Shap-E能从单张图片生成3D模型；甚至在科学研究领域，扩散模型还被用来生成分子结构，助力新药研发，让DDPM的价值超越了内容创作。

除此之外，DiT（扩散Transformer）的出现，用Transformer替代了传统的U-Net，进一步提升了模型的可扩展性和生成质量；SDXL（Stable Diffusion XL）则通过更大规模的模型架构，实现了更高分辨率、更细腻的图像生成，推动扩散模型向工业化应用稳步迈进，也让DDPM的技术体系更加完善。

六、通俗总结：DDPM的发展史，就是一部“突破与落地”的进化史

如果用一句话概括DDPM的发展史，其实就是：从2015年的思想萌芽，到2020年的正式诞生，再到2021年的加速优化、2022年的落地爆发，最后到如今的多模态泛化，DDPM一步步解决了“不稳定、速度慢、门槛高”的痛点，从实验室理论成长为改变世界的核心技术。而DDPM本身，就是一种“从噪声中还原美好”的生成模型，核心靠“逐步加噪→反向去噪”的过程，学习真实数据的分布，最终实现“从无到有”的生成。

它的发展意义，在于彻底改变了生成式AI的格局：

解决了GAN的痛点：训练稳定，不会出现模式崩溃，能生成更多样、更逼真的样本；

降低了生成模型的门槛：通过潜空间扩散等优化，让普通设备也能运行，推动了AIGC的普及；

可扩展性极强：从图像到音频、视频、3D，甚至科学研究，几乎覆盖了所有生成类场景；

逻辑优雅易懂：核心就是“加噪-去噪”，比起GAN的“对抗博弈”，更容易理解和优化。

短短十余年，DDPM完成了从“实验室理论”到“改变世界”的跨越。它不只是一门技术，更像是一种“用简单逻辑解决复杂问题”的思路——把复杂的生成过程拆解开，用“逐步优化”的方式，实现了“从噪声到万物”的奇迹，也书写了一段属于生成式AI的进化史诗。

七、未来展望：DDPM的下一站，会是Flow Match吗

回顾DDPM的发展史，每一次突破都源于对“更优、更实用”的追求，而未来，DDPM的技术体系还会继续进化，主要集中在三个方向：一是更高效，实现“实时生成”，进一步降低设备门槛，让更多人能用上；二是更可控，实现更精细的生成控制，满足工业化应用的需求；三是更通用，构建统一的多模态扩散框架，实现文本、图像、音频、视频的一体化生成，打破领域边界。

随着技术的不断迭代，DDPM会继续渗透到更多领域，不仅能改变内容创作的方式，还能助力科学研究、工业设计、医疗健康等行业的创新，让“AI生成”真正融入我们生活的方方面面。值得一提的是，近年来兴起的Flow Match（流匹配）模型，并不属于DDPM本身，而是DDPM所属的扩散模型体系的重要延伸与优化方向——它以“导航式生成”为核心，把去噪过程转化成速度向量预测，不用复杂的多步迭代，就能把采样步数压缩到1-4步，大幅提升生成效率还不损失质量，算是DDPM技术体系向“实时化、轻量化”进化的重要探索，也为后续扩散模型的落地应用开辟了新路径。

补充说明：Flow Match与DDPM的核心关联，其实是“共享扩散生成的底层逻辑”，两者都围绕“从噪声到真实数据的转化”展开，但DDPM以“逐步去噪、预测噪声”为核心，而Flow Match则通过直接预测速度向量简化生成过程，算是对DDPM高效化方向的进一步突破，并不是DDPM的分支或改进版本，也为DDPM的未来发展提供了新的思路。

参考文献

Sohl-Dickstein J, Weiss E, Maheswaranathan N, et al. Deep Unsupervised Learning using Nonequilibrium Thermodynamics[C]//International Conference on Machine Learning. PMLR, 2015: 2256-2265.（扩散模型雏形，首次提出“加噪-去噪”核心逻辑，为DDPM奠定思想基础）

Ho J, Jain A, Abbeel P. Denoising Diffusion Probabilistic Models[J]. arXiv preprint arXiv:2006.11239, 2020.（DDPM奠基性论文，系统化扩散概率模型框架，标志DDPM正式诞生）

Song J, Meng C, Ermon S. Denoising Diffusion Implicit Models[J]. arXiv preprint arXiv:2010.02502, 2021.（DDIM提出，解决DDPM采样速度慢的核心痛点，推动其工程化）

Nichol A, Dhariwal P. Improved Denoising Diffusion Probabilistic Models[J]. arXiv preprint arXiv:2102.09672, 2021.（IDDPM，优化DDPM训练稳定性与生成质量，完善技术体系）

Rombach R, Blattmann A, Lorenz D, et al. High-Resolution Image Synthesis with Latent Diffusion Models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.（LDM提出，为Stable Diffusion奠定基础，推动DDPM落地普及）

Lipman Y, Havasi M, Holderrieth P, et al. Flow Matching Guide and Code[J]. arXiv preprint arXiv:2412.06264, 2024.（Flow Match核心文献，拓展扩散模型高效化路径，为DDPM未来发展提供思路）

Luo C. Understanding Diffusion Models: A Unified Perspective[J]. arXiv preprint arXiv:2208.11970, 2022.（扩散模型统一视角综述，助力理解DDPM核心原理与发展脉络）

编辑：于腾凯

校对：林亦霖

欢迎在评论区留言与本文作者互动交流！

作者简介

贾恩东，9字清华本科，后于国科大就读博士，现为中国软件博士后。主要研究方向：传统机器学习，传统数字图像处理，深度学习与目标检测，少样本学习，自监督学习等。

数据派研究部介绍

数据派研究部成立于2017年初，以兴趣为核心划分多个组别，各组既遵循研究部整体的知识分享和实践项目规划，又各具特色：

算法模型组：积极组队参加kaggle等比赛，原创手把手教系列文章；

调研分析组：通过专访等方式调研大数据的应用，探索数据产品之美；

系统平台组：追踪大数据&人工智能系统平台技术前沿，对话专家；

自然语言处理组：重于实践，积极参加比赛及策划各类文本分析项目；