大模型面试题58：vLLM的Swap和Recompute？-编程阁

vLLM 里的Swap和Recompute是两个专门解决GPU显存不足的“救星功能”。核心目标都是：在有限显存下，让你能跑更大的模型、处理更长的序列，不用因为显存不够就被迫降低模型规模或缩短文本长度。

先铺垫一个关键背景：
LLM推理时，KV Cache是显存占用的“头号大户”（比如跑 LLaMA-70B 处理 8k 序列，KV Cache 能占几十G显存）。其次是模型参数本身，最后是推理过程中产生的中间计算结果。
Swap 和 Recompute 就是针对这两类“显存消耗大户”的优化策略——一个是**“挪走暂时不用的数据”，一个是“重新计算代替存储数据”**。

一、入门级：先搞懂核心概念（小白一眼明白）

用一个通俗类比贯穿始终：
把GPU显存比作你家的桌面（空间小，但拿东西最快）；
把CPU内存比作抽屉（空间大，拿东西比桌面慢一点）；
把硬盘比作仓库（空间超大，拿东西最慢）；
把推理需要的数据（KV Cache/中间结果）比作桌面上的文件。

1. Swap：显存不够，“挪走”暂时不用的 KV Cache

（1）核心定义

Swap 直译是“交换”，在 vLLM 里特指KV Cache Swap——把暂时用不上的 KV Cache 数据，从 GPU 显存“挪”到 CPU 内存，甚至硬盘里；等需要的时候，再“搬”回 GPU 显存继续用。

（2）原理类比（小白秒懂）

你在桌面写论文，摊开的资料太多，桌面堆满了。

第一步：把暂时不用的参考资料放进抽屉（内存），桌面空了，继续写；需要某份资料时，再从抽屉拿出来放桌面。
第二步：如果抽屉也满了，就把不常用的资料放进仓库（硬盘），等要用到时再搬回来。

对应 vLLM 的 Swap 逻辑：

存储层级	类比	速度	作用
GPU 显存	桌面

大模型面试题59：vLLM使用TP时MHA head数非GPU整数倍的解决方案？

要搞懂这个问题，我们先理清两个核心概念的关系：张量并行（TP）是vLLM把大模型拆到多张GPU上跑的技术，多头注意力（MHA）的head 是注意力机制的独立计算单元——TP对MHA的最优拆分方式是「按head均分」，这也是性能最高的方案。当 head 数量不是 GPU 数量的整数倍时，核心…

李华

Vite vs Webpack：开发效率对比实测

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 请创建两个功能完全相同的React项目进行对比：1. 使用Vite创建 2. 使用Create React App创建。项目功能要求：包含3个页面，使用React Router导航&…

李华

WebView2 Runtime vs传统浏览器嵌入：效率对比分析

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 创建一个性能对比工具，量化分析WebView2 Runtime与传统浏览器嵌入(如CEF)在以下方面的差异：1) 启动时间，2) 内存占用，3) 渲染性能&a…

李华

Qwen3-VL-WEBUI建筑图纸解析：CAD转描述部署应用

Qwen3-VL-WEBUI建筑图纸解析：CAD转描述部署应用 1. 引言：为何需要AI驱动的CAD图纸理解？ 在建筑设计、施工管理与工程审计等实际业务场景中，海量的CAD图纸（如DWG、DXF格式）构成了项目的核心资产。然而&…

李华

SORA V2官网开发效率提升300%的秘密

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 构建一个官网开发效率对比工具：1. 传统开发流程模拟器，展示各环节耗时 2. SORA V2开发流程可视化 3. 自动生成效率对比报告 4. 包含代码量、开发时间、人力…

李华

TOKEN解析效率革命：AI工具VS传统方法对比

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 开发一个高性能TOKEN解析对比工具，要求：1. 同时展示传统解析和AI解析两种方式 2. 统计并对比两者的解析时间 3. 支持批量TOKEN解析 4. 生成解析效率对比图表…

李华

一、 入门级：先搞懂核心概念（小白一眼明白）