近年来,人工智能领域正经历一场深刻的“多模态”革命。从只能处理文本的传统大语言模型(LLM),到如今能够理解并生成图像、音频、视频的“任意到任意”(Any-to-Any)多模态大模型,AI的能力边界被不断拓宽。想象一下,你只需向AI描述一个场景,它就能生成一幅画,并配上解说和背景音乐——这种跨模态的创作与交互,正是下一代AI应用的核心。
然而,能力越强大,背后的架构就越复杂。这些“全能型”模型通常不再是单一的神经网络,而是由多个自回归LLM、扩散变换器(DiT)以及其他专用组件“拼接”而成的复杂系统。例如,为了同时生成文本和语音,模型可能采用“思考者-说话者”架构,串联两个LLM;为了生成高质量图像,则可能将一个LLM与一个DiT模型级联。
这种复杂性给模型的高效部署与服务(Serving)带来了前所未有的挑战。现有的推理服务框架,如专精于文本生成的vLLM、SGLang,或专注于图像生成的Diffusers,都只是“单科状元”,无法优雅地处理这种多阶段、异构组件的流水线。开发者往往被迫手动“胶合”各个组件,导致资源利用率低下、性能严重受损,整个系统难以扩展和维护。
今天,我们要介绍一个来自香港中文大学、上海人工智能实验室、阿里巴巴集团等机构联合团队的突破性工作——vLLM-Omni。它旨在彻底解决任意到任意多模态模型的部署难题,通过一种全新的“完全解耦”服务范式,让复杂模型的推理变得像搭积木一样简单且高效。
论文标题:vLLM-Omni: Fully Disaggregated Serving for Any-to-Any Multimodal Models
论文链接:https://arxiv.org/pdf/2602.02204
开源地址:https://github.com/vllm-project/vllm-omni
研究背景:多模态盛宴背后的“部署噩梦”
要理解vLLM-Omni的价值,我们首先得看清当前多模态模型服务的“痛点”。
图片
图1:典型的任意到任意多模态模型架构示意图。它集成了多种编码器和解码器,能够处理和生成文本、图像、音频、视频等多种模态数据。
如图1所示,一个现代的多模态“通才”模型内部结构异常复杂。让我们看几个具体例子:
(1)Qwen-Omni系列:采用“思考者-说话者”架构。用户输入图片、语音或文字后,“思考者”LLM先理解内容并生成文本回应;“说话者”LLM则接收前者的信息,生成代表音频的离散编码;最后,一个“声码器”组件将编码转换为可听的波形。这相当于三个模型依次接力。
图片
图2(a) Thinker-Talker架构(以Qwen2.5-Omni为例)
(2)GLM-Image:采用“AR + DiT”架构。首先用一个自回归LLM理解输入并生成语义token,然后将这些token输入一个扩散变换器(DiT),经过多轮去噪迭代,最终合成高分辨率图像。这是两种完全不同生成范式(自回归 vs. 扩散)的串联。
图片
图2(b) AR + DiT架构(以GLM-Image为例)
(3)BAGEL等更复杂模型:甚至可能采用混合专家(MoE)设计,将不同模态的理解与生成任务分配给不同的专家模块,形成一个动态的、图状的计算流程。
图片
图2(c) AR + 专用生成器架构(以BAGEL为例)
面对这些“模型巨兽”,现有的服务框架束手无策。以最流行的vLLM为例,它的设计核心是服务于单一的、步进式的文本生成过程。它高效管理着KV缓存,进行连续批处理,但它的抽象层级无法表达“先运行A模型,将其结果处理后,再触发B模型”这样的多阶段流水线。
因此,开发者只能退而求其次:用最原始的方式,在一个脚本里先后加载多个模型,手动传递中间数据。这带来了两大恶果:
- 性能损失:无法利用vLLM等框架先进的调度、批处理和内存管理优化。每个阶段无法独立扩缩容,计算资源无法根据各阶段需求灵活分配。例如,负责理解的LLM可能需要大量显存放参数,而负责生成的DiT可能需要高计算吞吐,但在“捆绑”部署下,它们只能共享相同的资源配置,造成浪费或瓶颈。
- 开发与维护地狱:代码高度耦合,每换一个模型或调整流水线,都需要重写大量胶水逻辑。系统难以扩展、调试和优化。
vLLM-Omni:化整为零,协同作战
vLLM-Omni的核心理念非常清晰:将复杂的多模态模型“解耦”成独立的阶段(Stage),并为每个阶段分配合适的“执行引擎”,再通过统一的连接器将它们高效地组织起来。这就像将一支混杂的军队,重组为职责明确、装备专精、通信顺畅的特种小队。
图片
图3:vLLM-Omni架构图。后端由协调器管理多个独立的执行引擎,每个引擎服务一个模型阶段,并通过统一连接器进行数据交换。
(1)创新的“阶段图”抽象
vLLM-Omni为开发者提供了一个直观的编程接口——阶段图。开发者不再面对一个庞然大物,而是将其分解为若干个节点(阶段),并定义节点之间的连接边(数据转换与路由函数)。
- 节点:可以是一个自回归LLM(如Qwen的“思考者”)、一个扩散模型(如声码器),甚至是任何自定义的神经网络模块。
- 边:定义了如何将上一个阶段的输出(如隐藏状态、token序列、图像张量)进行处理,并转换为下一个阶段所需的输入格式。
图片
图4:使用vLLM-Omni实现Qwen2.5-Omni的示例。通过定义Thinker、Talker、Vocoder三个阶段,以及它们之间的预处理和转换函数,清晰构建出完整的执行流水线。
通过这种抽象,模型逻辑变得清晰、模块化,并且与底层的服务优化彻底解耦。
(2)完全解耦的执行后端
定义了阶段图之后,vLLM-Omni的后端会为图中的每个阶段启动一个独立的执行引擎。
- 专用引擎,各司其职:
a.对于LLM阶段,直接复用经过千锤百炼的vLLM引擎,继承其全部优化,如PagedAttention、连续批处理、预填充-解码解耦等。
b.对于DiT扩散模型阶段,vLLM-Omni集成了一个高性能扩散引擎,支持FlashAttention、SAGE Attention等加速技术,以及针对扩散过程特有的缓存优化(如TeaCache)。
- 弹性资源配置:每个引擎可以独立配置。你可以为庞大的“思考者”LLM分配更多GPU内存和采用张量并行,而为计算密集的“说话者”或DiT分配更高的计算并行度。资源利用率最大化。
- 统一连接器,高效通信:阶段间的数据传递由统一的连接器管理。它支持共享内存(单机低延迟)、基于TCP/RDMA的网络传输(跨节点),甚至可以利用像Mooncake这样的高效KV缓存传输技术。连接器负责处理所有中间数据(嵌入、隐藏状态、音频张量等)的移动,对模型逻辑透明。
图片
图5:通过统一连接器实现解耦数据传递。连接器抽象了数据传输细节,使阶段可以跨设备、跨节点部署。
- 流式输出,降低延迟:vLLM-Omni还支持阶段间的流式输出。例如,“说话者”LLM不必等到生成全部音频token后再传给声码器,而是生成一部分就传递一部分,让下游阶段提前开始工作,显著降低了整体流水线的首次输出延迟。
性能飞跃:数字会说话
理论很美好,那实际效果如何?
研究团队在多个前沿的多模态模型上进行了严格的测试,对比基线(通常是原始的Hugging Face Transformers或Diffusers实现),结果令人印象深刻。
(1)Qwen-Omni系列(Thinker-Talker架构):
- 对于Qwen2.5-Omni,vLLM-Omni将任务完成时间降低了61.6%。
- 对于更大的Qwen3-Omni,提升更为惊人,任务完成时间降低了91.4%!这意味着速度提升了超过10倍。分析发现,vLLM-Omni为“思考者”LLM带来了近13倍的吞吐提升,这得益于其执行图编译等深度优化。
图片
图6:在Qwen-Omni模型上的端到端性能对比。vLLM-Omni在实时因子和任务完成时间上均大幅领先。
(2)BAGEL(视觉生成模型):
- 在文本生成图像任务上,速度提升2.40倍。
- 在图像生成图像任务上,速度提升3.72倍。
(3)Mimo-Audio(音频生成模型):
- 结合执行图编译优化后,速度提升达到11.58倍。
(3)纯扩散模型(如Qwen-Image, Wan2.2):
- 即使对于单阶段的扩散模型,vLLM-Omni的专用扩散引擎也能带来平均1.26倍的速度提升。
这些数据充分证明了vLLM-Omni设计理念的有效性。它不仅解决了多阶段模型的服务难题,甚至对单阶段模型也能通过其优化后的引擎带来增益。
开启多模态AI服务的新纪元
vLLM-Omni的出现,恰逢其时。随着多模态大模型朝着更大、更复杂、更通用的方向发展,一个统一、高效、灵活的服务框架已成为产业落地的关键基础设施。
它将开发者从繁琐的工程“泥潭”中解放出来,使其能够专注于模型创新本身,而无需过度担忧部署的复杂性。同时,其卓越的性能也为实时多模态应用(如交互式AI助手、实时内容创作工具、跨模态搜索引擎)提供了坚实的技术保障。
该项目代码已在GitHub上开源:https://github.com/vllm-project/vllmomni
从只能“阅读”文字的LLM,到能“看”、能“听”、能“说”、能“画”的多模态通才,AI正在变得更加全能。而vLLM-Omni,正是为这些全能AI打造的高效“神经系统”,确保它们的能力能够流畅、稳定、规模化地服务于整个世界。多模态AI的浪潮已至,而vLLM-Omni为我们提供了驾驭这股浪潮的桨。
学习资源推荐
如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。
一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示
因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取
四、AI大模型商业化落地方案
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。