从追赶到超越:Guided Diffusion如何终结GAN的统治时代
引入“分类器引导”,在保真度与多样性之间找到完美的黄金分割
在2021年之前,尽管扩散模型在理论上展现了优雅的数学特性,但在高分辨率图像生成的“竞技场”上,GAN(生成对抗网络)依然是无可争议的王者(如BigGAN、StyleGAN)。人们普遍认为扩散模型虽然生成的样本多样性好,但图片的“逼真度”和细节纹理难以匹敌GAN。然而,OpenAI的这项研究《Diffusion Models Beat GANs on Image Synthesis》彻底打破了这一局面。通过对模型架构的深度消融实验与革命性的“分类器引导(Classifier Guidance)”技术,它不仅在ImageNet基准上击败了当时最强的BigGAN-deep,更揭示了如何利用梯度引导来精确平衡生成图像的多样性与保真度,。
论文信息:Dhariwal, P., & Nichol, A. (2021). Diffusion Models Beat GANs on Image Synthesis. arXiv preprint arXiv:2105.05233.
https://arxiv.org/pdf/2105.05233
核心贡献:
- 架构优化:通过增加深度、多头注意力机制(Multi-head Attention)及引入BigGAN残差块,找到了扩散模型生成高质量图像的最佳架构配置,。
- 分类器引导(Classifier Guidance):提出利用预训练分类器的梯度($ \nabla \log p(y|x) $)在采样过程中引导扩散模型,允许用户通过调整缩放因子(Scale)来用多样性(Recall)换取极高的保真度(Fidelity),。
- SOTA性能:首次证明扩散模型在ImageNet 128x128、256x256及512x512分辨率下的FID分数超越了最先进的GAN模型,。
历史地位:扩散模型击败GAN的“翻身之战”,确立了扩散模型在极高分辨率、光写实图像生成领域的霸主地位,其提出的Guidance技术成为了后续DALL-E 2、Imagen等大规模文生图模型的核心基石。