news 2026/4/16 12:12:44

一步生成,像素空间,何恺明让 pMF 做到了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
一步生成,像素空间,何恺明让 pMF 做到了

何恺明团队最近抛出的这篇工作,多少有点“把老问题直接掀桌子重来”的味道。他们提出的Pixel MeanFlow(pMF),在不借助潜在空间、不依赖多步采样的前提下,只用一次前向传播,就生成了质量相当扎实的图像。在 ImageNet 上,256×256 分辨率做到 2.22 的 FID,512×512 也稳在 2.48。

如果把这些数字和过去几年主流扩散模型的设置放在一起对照,很难不意识到:这不是一次小幅优化,而是一次路线层面的收缩。

论文中在 ImageNet 256×256 与 512×512 的系统级对比结果,这些表格基本奠定了 pMF 在“单步生成”赛道上的位置。


一、生成模型为什么总是又慢又绕?

把时间拨回到前几年,生成模型的主流路线几乎是固定的:一步一步采样,或者先压进潜在空间再生成。,是显性的;,则藏在系统结构里。

DDPM、Flow Matching 需要几十步反复修正,Stable Diffusion 看似轻巧,实则把复杂度转移给了一个庞大的 VAE 编码—解码系统。

这些设计并非拍脑袋得来,它们在稳定性和可控性上确实立过功。但工程代价也随之堆积:推理延迟高、调参空间大、模型结构臃肿。一旦进入部署阶段,这些问题会被无限放大。

后来出现的一致性模型、MeanFlow,开始尝试把“多步”压缩成“一步”;而 JiT 等工作,则直接挑战“像素空间是不是一定不可行”。问题是,这两条路始终没有真正汇合。


二、单步 + 像素空间,为什么一直没人走通?

表面看,这只是把两个已有想法拼在一起;但真正做过的人都知道,这一步并不简单。

单步生成对模型表达能力的要求极高,而像素空间又是高维、强噪声的“重灾区”。多数方法要么在速度场里迷路,要么生成结果直接失控。

pMF 的切入点,恰恰不是继续在“预测什么”上死磕,而是换了一个问题问法:

网络真的需要直接学那个最难的目标吗?

作者用一张极其克制的示意图,把这个问题摆了出来。


三、把“学什么”和“怎么罚”拆开

pMF 的核心想法,说穿了并不复杂,却非常有分寸感:

网络输出的空间,和损失约束的空间,不必是同一个。

模型直接输出的是一张“去噪后的图像”——记作 x。它不要求完美复原干净样本,但被假定落在一个低维图像流形上,更接近真实世界里的图像形态。

而真正承担物理与数学约束的,是损失函数,它仍然工作在 MeanFlow 的速度空间里。

两者之间,通过一个线性的、可解释的映射连接起来:

x = zₜ − t · u(zₜ, r, t)

给出了对应的仿真可视化:

zₜ 噪声密集、结构混乱;u 高维且不直观;而 x 已经呈现出模糊但合理的图像轮廓。

这一步,其实是把“难学的东西”,悄悄藏进了损失里。


四、高维空间里,预测谁更现实?

直觉可以骗人,实验不会。

论文用一个二维玩具实验,把维度从 2 一路拉到 512,对比 x-预测和 u-预测的行为差异。结果在 Figure 2 中一目了然:

维度一高,u-预测几乎立刻崩盘;而 x-预测仍然能给出结构稳定的结果。

真实数据集上的表现更加直接。

在 ImageNet 64×64 下,两者尚能打平;但到了 256×256,u-预测的 FID 飙到 164.89,而 x-预测仍能维持在可用区间(FID 9.56)。这些数字集中呈现在 Table 2 中。

说到底,x 更像“图像应该长什么样”,而 u 更像“噪声世界里的导数”。神经网络会选择谁,答案并不意外。


五、感知损失,终于用在了该用的地方

pMF 直接在像素空间出图,这件事带来了一个很现实的好处:

感知损失终于不再是“VAE 专属”。

加入 VGG-based LPIPS,FID 从 9.56 下降到 5.62;换成 ConvNeXt-V2 版本后,进一步压到 3.53。提升幅度不算含蓄,但完全说得通。

这不是技巧堆叠,而是路径改变带来的红利。


六、一步生成,也能站上性能前排

在 ImageNet 256×256 与 512×512 的完整系统对比中,pMF 的位置相当清晰:

一次前向传播(NFE=1),FID 却能和多步扩散模型掰手腕。

从参数量、算力开销到生成质量,pMF 并非“便宜凑数”的方案,而是一个正经的高性能模型,只是把流程压缩到了极限。


七、这项工作真正留下的,是一条路

回头看,pMF 的意义,可能并不只在于刷新了某几个指标。

它更像是在提醒我们:生成模型不一定非得层层嵌套、步步回溯。只要目标设得足够聪明,约束放在合适的位置,一次映射,也可以是稳定而可信的。

未来这条路线能走多远,还需要时间验证。但至少,何恺明团队已经把“单步 + 像素空间”这道题,清清楚楚地写出了一种可行解。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/12 13:40:21

Ubuntu 虚拟机双网卡配置:连接外网与嵌入式开发板IMX6ULL

在嵌入式 Linux 开发中,最理想的网络环境是 “双网卡架构”: 网卡 1 (NAT 模式):用于 Ubuntu 上网(下载软件、源码),以及与 Windows 主机进行 SSH/VSCode 通信。 网卡 2 (桥接模式):专线连接开…

作者头像 李华
网站建设 2026/4/14 22:49:04

年薪五十万的硬件工程师应该具备哪些业务技能

目录 简介 职业习惯 ZL01-各类元器件相关资料 ZL02-电源设计资料 ZL03-大厂参考资料 ZL04-开发工具 ZL05-仿真工具 ZL06-各类电路接口设计指南 ZL08-优质电子书 ZL09-硬件工程师 ZL10FPGA工程师教程华为资料展示 ZL14各类协议稀缺资料汇总 一.核心技术能力 简介 回…

作者头像 李华
网站建设 2026/4/8 20:58:17

Java面试必看:如何高效列出所有文件?

文章目录Java面试必看:如何高效列出所有文件?引言正文一、File类的基本用法二、使用递归实现文件遍历三、使用NIO库实现高效文件遍历四、使用第三方工具类库五、性能优化六、总结结语好了,今天的分享就到这里。希望这篇文章能够帮助大家在Jav…

作者头像 李华