news 2026/4/15 18:22:36

引入线性注意力!一起探索图像视频扩散模型的高效设计与加速

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
引入线性注意力!一起探索图像视频扩散模型的高效设计与加速

青稞社区:https://qingkeai.online/
原文:https://mp.weixin.qq.com/s/eRhlfm7yLkRvDz3MoFE7LQ

随着 GenAI 视觉模型(如 Sora 2、Google Nano Banana)的爆炸式发展,其惊人的效果背后是庞大的计算资源消耗。图像和视频模型的推理 FLOPs 甚至远超 LLM,导致部署成本高昂,难以普及。

SANA系列模型作为高效生成式基础模型的前沿探索,通过引入线性注意力(Linear Attention)等创新架构,实现了在不牺牲质量的前提下,极大地提升了处理超长序列和高分辨率生成任务的能力。线性注意力是处理超长序列的关键,它将复杂度从 (O(N2)O(N^2)O(N2)) 降低到 (O(N)O(N)O(N))。

这不仅是一个数学上的优化,更是解锁大语言模型(LLMs)和长视频生成无限上下文长度的关键

SANA

论文:Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer 链接:https://arxiv.org/abs/2410.10629 代码:https://github.com/NVlabs/Sana

SANA 是文本到图像(T2I)的框架。它的厉害之处在于能高效生成高达 4096 × 4096 的超高分辨率图像。Sana-0.6B 模型尺寸比一些大型扩散模型小 20 倍,但吞吐量却快了 100 多倍。该论文被收录为 ICLR’25 Oral。

它非常轻量,可以在 16GB 笔记本电脑 GPU 上部署,生成一张 1024 × 1024 的图像不到 1 秒。实现高分辨率靠的是深度压缩自编码器,将图像压缩倍数提高到 32 倍,以及用线性 DiT替换了所有传统注意力机制,。

SANA 1.5

[外链图片转存中…(img-kQpJKWqF-1765534255028)]

SANA-1.5 是一种面向高效扩展的线性扩散 Transformer(Linear Diffusion Transformer),用于文本到图像生成任务。论文已被ICML’25 收录。

论文:SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer 链接:https://arxiv.org/abs/2501.18427

在 SANA 的基础上,SANA-1.5 引入了三项关键创新:

第一,高效训练扩展(Efficient Training Scaling):采用深度增长范式(depth-growth paradigm),将模型参数规模从 16 亿(1.6B)平滑扩展至 48 亿(4.8B),同时显著降低计算资源消耗;该方法结合了一种内存高效的 8 位优化器(8-bit optimizer),大幅减少显存占用,提升大规模训练的可行性。

第二,模型深度剪枝(Model Depth Pruning):提出一种基于模块重要性分析(block importance analysis)的技术,可对模型进行高效压缩,支持任意目标尺寸的裁剪,且在压缩后仅需极少量微调即可恢复生成质量,几乎不损失图像保真度。

第三,推理时扩展(Inference-time Scaling):通过重复采样策略,在推理阶段以增加计算量为代价换取等效的模型容量提升,使较小规模的模型在实际生成效果上逼近甚至媲美更大模型的表现。

[外链图片转存中…(img-MaNaJZMe-1765534255028)]

凭借上述策略,SANA-1.5 在 GenEval 基准上取得了 0.81 的文本-图像对齐分数;进一步结合推理时扩展技术,该分数可提升至 0.96,刷新了 GenEval 的当前最佳纪录(SoTA)。这些创新使得模型能够在不同计算预算下灵活缩放,同时保持高质量输出,从而让高性能图像生成技术更加普及和可及。

SANA-Sprint

SANA-Sprint 是一种高效的扩散模型,专为超高速文本到图像(Text-to-Image, T2I)生成而设计。该模型基于一个已预训练的基础模型,并通过混合蒸馏技术,将原本需要约 20 步的推理过程大幅压缩至仅需 1 到 4 步,从而在保持高质量图像输出的同时实现毫秒级生成速度。成果已被收录为 ICCV’25 Highlight。

论文:SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation 链接:https://arxiv.org/abs/2503.09641

SANA-Sprint 的核心贡献包括以下三点:

第一,提出了一种无需额外训练的方法,可直接将预训练的流匹配(flow-matching)模型转化为适用于连续时间一致性蒸馏(sCM)的形式。这一方法避免了从头开始训练一致性模型所带来的高昂计算成本,显著提升了训练效率。

在此基础上,团队进一步引入了混合蒸馏策略:其中 sCM 负责确保学生模型与教师模型在整体分布上保持一致,而潜在对抗蒸馏(Latent Adversarial Distillation, LADD)则专门用于提升单步生成结果的细节保真度和视觉质量。

第二,SANA-Sprint 是一个统一的步数自适应模型。这意味着同一个模型可以在 1 步、2 步、4 步等不同推理配置下均实现高质量图像生成,而无需为每种步数单独训练专用模型。这种设计不仅简化了部署流程,也提高了模型在不同硬件和应用场景下的灵活性与实用性。

[外链图片转存中…(img-NgYYjgFa-1765534255029)]

第三,SANA-Sprint 成功集成了 ControlNet,支持实时交互式图像生成。用户可通过边缘图、姿态图、深度图等条件对生成过程进行精细控制,并在极短时间内获得反馈。在 NVIDIA H100 上,ControlNet 模式的生成延迟仅为 0.25 秒,充分满足了设计、创作等需要即时响应的交互场景需求。

[外链图片转存中…(img-tdaccIjo-1765534255029)]

在性能方面,SANA-Sprint 在仅使用 1 步推理的情况下,取得了 7.59 的 FID 分数和 0.74 的 GenEval 分数,优于当前最快的 FLUX-schnell 模型(FID 7.94,GenEval 0.71)。

更重要的是,SANA-Sprint 在 H100 上生成一张 1024×1024 图像仅需 0.1 秒,比 FLUX-schnell 快约 10 倍(后者需 1.1 秒)。在消费级显卡 RTX 4090 上,SANA-Sprint 的文生图延迟也仅为 0.31 秒,展现出其在 AI PC(AIPC)等终端设备上的强大应用潜力。

SANA-Video

SANA-Video,一种轻量级扩散模型,能够高效生成分辨率达 720×1280、时长可达一分钟的高质量视频。SANA-Video 在保持强文本-视频对齐能力的同时,以极快的速度合成高分辨率、长时长视频,并可在 RTX 5090 GPU 上部署。

论文:SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer 链接:https://arxiv.org/pdf/2509.24695

SANA-Video 的高效性与长视频生成能力源于两项核心设计:

第一,线性 DiT(Linear DiT):我们采用线性注意力作为模型的核心运算单元。相较于传统自注意力机制,线性注意力在处理视频生成中海量 token 时具有显著更高的计算效率。

第二,面向块线性注意力的恒定内存 KV 缓存(Constant-Memory KV Cache):设计了一种基于块的自回归生成方法,利用线性注意力的累积特性构建一个恒定内存占用的状态缓存。该 KV 缓存使 Linear DiT 能够在固定内存开销下获取全局上下文信息,无需传统 KV 缓存,从而高效支持分钟级长视频生成。

此外,还探索了有效的数据过滤策略与模型训练方案,将整体训练成本压缩至仅需 64 块 H100 GPU 训练 12 天,约为 MovieGen 训练成本的 1%。得益于这一极低的训练开销,SANA-Video 在性能上已可与当前先进的小型扩散视频模型(如 Wan 2.1-1.3B 和 SkyReel-V2-1.3B)相媲美,同时实测推理延迟降低 16 倍。

在推理端,SANA-Video 支持在 RTX 5090 GPU 上使用 NVFP4 精度运行,将生成一段 5 秒 720p 视频的时间从 71 秒缩短至 29 秒,实现 2.4 倍的加速。


12月16日(周二)晚8点,青稞Talk 第98期,香港大学MMLab博士生陈俊松,将直播分享《SANA-Series:探索图像视频扩散模型的高效设计与加速》。

本次分享将聚系统介绍 SANA(ICLR 2025 Oral Presentation)、SANA 1.5、SANA-Sprint和长视频生成(SANA-Video, LongSANA)一系列创新工作,为视觉生成模型的普及化提供可行方案。

分享嘉宾

陈俊松,香港大学MMLab博士生,导师为罗平老师。在英伟达研究院实习,由谢恩泽博士与韩松老师指导。研究方向为图像视频高效生成,共发表高水平学术论文十余篇,一作发表包括ICML,ICLR,ICCV,CVPR等业内顶级会议,开源项目GitHub获stars 10k+,谷歌学术引用2000+次,获得国家奖学金,KAUST AI新星等荣誉。

主题提纲

SANA-Series:探索图像视频扩散模型的高效设计与加速

1、视觉生成模型的计算瓶颈,及其四大加速方向
2、高效图像生成:SANA & SANA-Sprint
- 高倍压缩、Linear Attention DiT与步数蒸馏
3、SANA-Video:AR 与 Diffusion 结合生成长视频
4、AMA (Ask Me Anything)环节

直播时间

12月16日(周二)20:00 - 21:00

如何观看

Talk 将在青稞社区【视频号:青稞AI、Bilibili:青稞AI】上进行进行直播,欢迎学习交流~~~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 15:07:47

LeetCode 3433.统计用户被提及情况:(大)模拟

【LetMeFly】3433.统计用户被提及情况:(大)模拟 力扣题目链接:https://leetcode.cn/problems/count-mentions-per-user/ 给你一个整数 numberOfUsers 表示用户总数,另有一个大小为 n x 3 的数组 events 。 每个 eve…

作者头像 李华
网站建设 2026/4/16 16:48:56

把 GPT-4o 装进口袋却不联网?这家公司造出了 300 克的“AI 核弹”,硅谷云巨头今夜无眠

这是一场对物理定律和商业模式的双重宣战。 请看一眼本文开头的这张图片。 左边那个黑色的小盒子,看起来像什么?一个稍微厚一点的充电宝?一个不起眼的移动硬盘?右边是一台 iPhone 15 Pro,作为早已被我们习以为常的“现代科技巅峰”的参照物。 此时此刻,你的手机也许正…

作者头像 李华
网站建设 2026/4/16 16:46:54

SpringBoot 集成远程 Redis 连接失败:自动配置与依赖排查实战

本文的核心读者是 SpringBoot 初学者、后端开发工程师,以及在项目中遇到 “配置远程 Redis 后仍连接 localhost” 问题的技术人员。将为你解决以下实际问题: 明明配置了 spring.redis.host 远程地址,项目却始终使用默认 localhost:6379 连接…

作者头像 李华
网站建设 2026/4/16 13:33:26

15、嵌入式系统中的设备驱动、多线程调试与网络编程

嵌入式系统中的设备驱动、多线程调试与网络编程 1. 设备驱动介绍 在特定应用中,Linux 内核提供了三个设备驱动来访问相关的外围设备,具体如下: | 设备驱动 | 功能描述 | | ---- | ---- | | /dev/adc | read() 函数返回通道 0 的数字文本字符串 | | /dev/leds | …

作者头像 李华
网站建设 2026/4/15 14:52:53

如何快速修复MPV在Mac上的色彩失真:4步完整指南

如何快速修复MPV在Mac上的色彩失真:4步完整指南 【免费下载链接】mpv 🎥 Command line video player 项目地址: https://gitcode.com/GitHub_Trending/mp/mpv 当你在Mac上使用MPV播放高清视频时,是否遇到过画面偏绿、细节模糊或HDR效果…

作者头像 李华
网站建设 2026/4/16 10:40:16

22、嵌入式系统开发:BusyBox、显示设置与U-Boot配置

嵌入式系统开发:BusyBox、显示设置与U-Boot配置 1. BusyBox的使用 BusyBox 可执行文件通常安装在 /bin 目录,这里也是大多数用户级命令行实用程序所在之处。为了让 BusyBox 能模拟不同命令,我们可以创建符号链接。例如,在 /bin 目录下创建如下符号链接: ln -s bus…

作者头像 李华