vLLM 0.11.0 发布：全面升级引擎与多模态支持-编程阁

vLLM 0.11.0：引擎重构、多模态跃迁与生产级推理的全面进化

在大模型从研究走向规模化落地的关键阶段，推理效率不再只是“锦上添花”的性能指标，而是决定服务成本、响应体验和商业可行性的核心命脉。正是在这样的背景下，vLLM 推出v0.11.0版本——一个堪称里程碑式的重大更新。

这一版本凝聚了207 名贡献者（其中 65 名为新成员）的集体智慧，历经538 次提交，完成了从底层架构到上层接口的深度重塑。它不仅标志着 vLLM 正式告别历史包袱，更预示着其作为企业级高性能推理引擎的新起点：更高效、更统一、更具扩展性。

引擎现代化：V0 的谢幕与 V1 的全面接管

如果说 vLLM 过去的演进是一场渐进式优化，那么 0.11.0 则是一次果断的“外科手术”——彻底移除已弃用多年的V0 引擎。

这不仅仅是代码清理那么简单。AsyncLLMEngine、LLMEngine、MQLLMEngine等旧组件的退出，意味着整个系统摆脱了多套并行逻辑带来的复杂性和维护负担。注意力后端、序列管理、采样元数据处理等模块也同步完成清理，连MultiModalPlaceholderMap和seq_group这类遗留接口都被一一摘除。

取而代之的是完全成熟的V1 引擎，它以更清晰的抽象、更低的通信开销和更强的可扩展性成为唯一选择。这次转型让代码库更加整洁，也为未来功能迭代扫清了障碍。对于开发者而言，这意味着部署方案终于归一，无需再纠结于不同引擎间的细微差异或兼容性问题。

更重要的是，V1 引擎本身也在本次更新中获得了显著增强：

Prompt Embeddings 支持允许直接传入预计算的嵌入向量，跳过重复的分词与查表过程，在批处理或缓存场景下极为实用。
分片状态加载让超大规模模型（如 Llama 3.1 405B）可以在内存受限的单机上逐步加载，降低启动峰值。
LLM.apply_modelAPI提供了更底层的控制能力，便于高级用户进行定制化集成。
架构层面移除了Tokenizer Group，减少了不必要的进程间通信；多模态数据则通过共享内存提升跨进程访问效率。

这些变化共同构建了一个更轻量、更专注、更适合生产环境的推理核心。

性能飞跃：PagedAttention 的深度打磨与 CUDA Graph 的智能升级

vLLM 的看家本领——PagedAttention——在 0.11.0 中迎来了新一轮爆发式优化。这一次，它不再只是内存管理的革新者，更是性能压榨的先锋。

借助FlashInfer和Triton 内核的深度融合，关键路径上的操作被不断精简：

RotaryEmbedding.forward_cuda在支持环境下优先使用 FlashInfer 实现，RoPE 计算速度提升近2 倍；
query 和 key 的 RoPE 计算被融合为单一内核，减少内核启动开销，带来11% 的整体加速；
Triton MRoPE 内核的引入进一步提升了 Qwen3-VL 等模型的运行效率。

而在执行图层面，CUDA graph 模式默认升级为FULL_AND_PIECEWISE，在大多数负载中实现了更高吞吐，尤其对 MoE 类细粒度模型表现优异。虽然仍保留PIECEWISE模式用于兼容，但新默认值反映了团队对稳定性和性能边界的充分信心。

此外，推测解码（speculative decoding）的成本也被大幅压缩。通过批量并行 Ngram 策略，其开销降低了8 倍；结合 FlashInfer 的优化，整体提速达1.14 倍。这类技术组合拳使得“草稿-验证”机制真正具备了在高并发场景下广泛应用的可行性。

其他细节优化同样不容小觑：
- 避免不必要的inputs_embeds张量复制，节省 GPU 显存带宽；
- 模型信息缓存生成_ModelInfo文件，加快后续加载；
- DeepGEMM 默认启用，在多个基准测试中带来5.5% 吞吐提升。

这些看似微小的改进叠加起来，构成了实实在在的性能跃迁。

多模态能力爆发：不只是支持更多模型

如果说之前的 vLLM 对多模态的支持还停留在“可用”层面，那么 0.11.0 已经将其推向“好用”甚至“强大”。

新增对Qwen3-VL、Qwen3-Next、LongCat-Flash、Dots OCR、OLMo3等前沿多模态架构的原生支持，意味着用户几乎可以无缝部署最新研究成果。特别是 Qwen3-VL 的纯文本模式 (#26000)，让用户能在不需要图像输入时避免视觉编码器的额外开销，灵活应对混合工作负载。

在能力维度上，vLLM 不再满足于简单的图文理解：

视觉编码器数据并行支持 InternVL、Qwen2-VL 和 Qwen3-VL，显著提升长视频或多图输入的处理效率；
EVS 视频 token 剪枝技术 (#22980) 可动态裁剪冗余帧标记，在保持精度的同时大幅节省显存；
工具调用能力扩展至 LongCat-Flash-Chat (#24083)，使其能主动调用外部函数完成复杂任务；
新增Media UUID 缓存，避免重复上传相同媒体资源，提升交互效率。

同时，Whisper 模型现在可在 Intel XPU 平台运行，RADIO 编码器和池化任务（Pooling）也获得支持，展现出对多样化下游任务的强大适应力。

量化体系深化：FP8、NVFP4 与 W4A8 的全面覆盖

量化是通往高效推理的必经之路，而 vLLM 在这条路上越走越深。

本版本将FP8 量化推向新的高度：
- 支持per-token group 量化，实现更精细的精度控制；
- 利用硬件加速指令提升量化速度；
- torch.compile 开始支持 FP8 KV 缓存，打通编译优化链路；
- 分页注意力机制也完成适配，确保 FP8 下的内存管理依然高效。

对于追求极致压缩比的场景，NVFP4支持范围扩大至 Llama 3.1 405B 和 Gemma3 等大型密集模型。这意味着即便是千亿参数级别的巨无霸，也能在有限资源下实现推理部署。

W4A8 方面，预处理性能得到显著优化，apply_w8a8_block_fp8_linear实现重写后，加载和转换效率大幅提升。此外，Compressed Tensors 框架也开始支持块状 FP8 用于 MoE 层，为专家网络的稀疏化提供新选择。

这些进展表明，vLLM 不再被动适配量化格式，而是主动参与标准建设，并推动软硬协同的极致优化。

硬件生态扩张：NVIDIA、AMD、Intel 与新兴架构全覆盖

vLLM 的野心显然不止于 NVIDIA GPU。0.11.0 在多平台适配方面迈出坚实步伐。

NVIDIA：深度绑定新一代架构

FP8 MLA 解码启用 TRTLLM 风格内核，提升解码阶段效率；
BF16 融合 MoE 支持 Hopper/Blackwell 架构的专家并行（EP），充分发挥新硬件特性。

AMD ROCm：持续加码

完整支持ROCm 7.0；
为 GLM-4.5 在 MI300X 上提供 Triton MoE 调优配置，释放 CDNA3 架构潜力。

Intel XPU：修复与拓展并举

修复 MoE DP 模式下的精度问题，提升推理准确性；
Whisper 模型成功移植至 XPU，验证了跨厂商语音模型部署的可能性。

新兴架构：拥抱开放生态

添加RISC-V 64 位支持；
ARM 架构非 x86 CPU 得到官方支持，并实现 4-bit 融合 MoE 加速。

这种广泛的硬件兼容性，使 vLLM 成为企业异构计算环境中极具吸引力的选择——无论你手握 A100/H100 集群，还是基于国产芯片或边缘设备构建系统，都能找到适配方案。

大规模服务增强：面向生产的分布式能力升级

当推理需求从单机走向集群，vLLM 同样做好了准备。

双批次重叠（DBO）机制引入计算重叠策略，进一步提高 GPU 利用率。配合 DeepEP 的高吞吐设计与预填充优化，即使在极端负载下也能维持稳定输出。

数据并行（DP）方面，现已支持通过标准torchrun启动器部署，简化运维流程。Ray placement groups 的加入也让资源调度更加精准。Triton DP/EP 内核的提供，则保证了跨节点通信的高效性。

针对 MoE 模型的负载均衡难题，Expert Parallel Load Balancing（EPLB）新增对 Hunyuan V1 和 Mixtral 的支持，并引入静态分配策略以降低动态调度开销。

在分离式服务架构中，KVTransferMetrics提供了 KV 数据传输的可观测性，帮助诊断网络瓶颈。NCCL 对称内存优化带来 3–4% 的吞吐提升，Tensor Parallelism (TP) 也成为默认启用项，反映出对分布式训练/推理一体化趋势的积极响应。

API 与用户体验：更友好、更可靠、更透明

易用性同样是生产级系统的生命线。

OpenAI 兼容 API 得到多项增强：
- 支持返回所有提示 token 的logprobs；
-logprobs=-1可获取全词表概率分布，满足精细化分析需求；
- 流式响应支持 MCP 工具调用事件，便于前端构建交互式应用；
-/health接口在引擎异常时正确返回 503，便于监控系统判断状态。

CLI 工具也更加人性化：
- 新增--enable-logging控制开关；
---help输出更清晰；
- 环境变量校验强制要求合法值，防止配置错误导致诡异行为；
- 启用 NVTX profiling，方便性能剖析。

指标系统完成瘦身与规范化：
- 移除已弃用的gpu_前缀指标；
- KV 缓存内存单位统一为 GiB，更符合直觉；
- V1 引擎新增 TPOT（Time Per Output Token）直方图，便于分析延迟分布。

甚至连一条曾让人困惑的日志——“量化尚未完全优化”——也被移除，体现了团队对用户体验细节的关注。

安全与依赖：稳健前行的基础保障

安全方面修复了漏洞GHSA-wr9h-g72x-mwhm，具体细节虽未公开，但及时响应 CVE/CVE-like 问题体现了项目成熟度。

依赖项全面升级：
- PyTorch 升级至 2.8 for CPU；
- FlashInfer 升级至 0.3.1；
- 支持 CUDA 13 和 ROCm 7.0；
- 构建系统强制使用 C++17 标准；
- TPU 后端弃用xm.mark_step，改用更稳定的torch_xla.sync。

这些变更确保了与现代 ML 生态的紧密同步，同时也提高了构建的一致性和可复现性。

结语：一次超越“版本迭代”的进化

vLLM 0.11.0 远非一次普通的功能更新。它是架构统一的宣言，是性能极限的挑战，也是多模态时代的入场券。

从 V0 引擎的彻底退役，到 PagedAttention 的层层压榨；从对 Qwen3、GLM-4、InternVL 的全面拥抱，到 FP8、NVFP4、W4A8 的量化纵深推进；从 NVIDIA 到 AMD、Intel 乃至 RISC-V 的硬件广度覆盖——每一个改动都在强化同一个目标：打造一个真正属于生产环境的大模型推理基座。

如今的 vLLM，不仅能跑得快，更能跑得稳、跑得广、跑得聪明。无论是需要极致吞吐的在线客服系统，还是处理图文音视的复杂 AI Agent，它都提供了坚实的技术底座。

这场推理引擎的进化仍在继续，而 0.11.0，正是下一个篇章的开端。