news 2026/6/10 17:56:24

大模型面试题58:vLLM的Swap和Recompute?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型面试题58:vLLM的Swap和Recompute?

vLLM 里的SwapRecompute是两个专门解决GPU显存不足的“救星功能”。核心目标都是:在有限显存下,让你能跑更大的模型、处理更长的序列,不用因为显存不够就被迫降低模型规模或缩短文本长度。

先铺垫一个关键背景:
LLM推理时,KV Cache是显存占用的“头号大户”(比如跑 LLaMA-70B 处理 8k 序列,KV Cache 能占几十G显存)。其次是模型参数本身,最后是推理过程中产生的中间计算结果
Swap 和 Recompute 就是针对这两类“显存消耗大户”的优化策略——一个是**“挪走暂时不用的数据”,一个是“重新计算代替存储数据”**。

一、 入门级:先搞懂核心概念(小白一眼明白)

用一个通俗类比贯穿始终:
GPU显存比作你家的桌面(空间小,但拿东西最快);
CPU内存比作抽屉(空间大,拿东西比桌面慢一点);
硬盘比作仓库(空间超大,拿东西最慢);
推理需要的数据(KV Cache/中间结果)比作桌面上的文件

1. Swap:显存不够,“挪走”暂时不用的 KV Cache

(1) 核心定义

Swap 直译是“交换”,在 vLLM 里特指KV Cache Swap——把暂时用不上的 KV Cache 数据,从 GPU 显存“挪”到 CPU 内存,甚至硬盘里;等需要的时候,再“搬”回 GPU 显存继续用。

(2) 原理类比(小白秒懂)

你在桌面写论文,摊开的资料太多,桌面堆满了。

  • 第一步:把暂时不用的参考资料放进抽屉(内存),桌面空了,继续写;需要某份资料时,再从抽屉拿出来放桌面。
  • 第二步:如果抽屉也满了,就把不常用的资料放进仓库(硬盘),等要用到时再搬回来。

对应 vLLM 的 Swap 逻辑:

存储层级类比速度作用
GPU 显存桌面
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/6 6:59:30

大模型面试题59:vLLM使用TP时MHA head数非GPU整数倍的解决方案?

要搞懂这个问题,我们先理清两个核心概念的关系:张量并行(TP) 是vLLM把大模型拆到多张GPU上跑的技术,多头注意力(MHA)的head 是注意力机制的独立计算单元——TP对MHA的最优拆分方式是「按head均分」,这也是性能最高的方案。 当 head 数量不是 GPU 数量的整数倍时,核心…

作者头像 李华
网站建设 2026/6/1 2:03:32

Vite vs Webpack:开发效率对比实测

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 请创建两个功能完全相同的React项目进行对比:1. 使用Vite创建 2. 使用Create React App创建。项目功能要求:包含3个页面,使用React Router导航&…

作者头像 李华
网站建设 2026/6/10 11:40:20

WebView2 Runtime vs传统浏览器嵌入:效率对比分析

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个性能对比工具,量化分析WebView2 Runtime与传统浏览器嵌入(如CEF)在以下方面的差异:1) 启动时间,2) 内存占用,3) 渲染性能&a…

作者头像 李华
网站建设 2026/6/10 11:38:00

Qwen3-VL-WEBUI建筑图纸解析:CAD转描述部署应用

Qwen3-VL-WEBUI建筑图纸解析:CAD转描述部署应用 1. 引言:为何需要AI驱动的CAD图纸理解? 在建筑设计、施工管理与工程审计等实际业务场景中,海量的CAD图纸(如DWG、DXF格式)构成了项目的核心资产。然而&…

作者头像 李华
网站建设 2026/6/10 11:37:25

SORA V2官网开发效率提升300%的秘密

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 构建一个官网开发效率对比工具:1. 传统开发流程模拟器,展示各环节耗时 2. SORA V2开发流程可视化 3. 自动生成效率对比报告 4. 包含代码量、开发时间、人力…

作者头像 李华
网站建设 2026/6/10 11:44:15

TOKEN解析效率革命:AI工具VS传统方法对比

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个高性能TOKEN解析对比工具,要求:1. 同时展示传统解析和AI解析两种方式 2. 统计并对比两者的解析时间 3. 支持批量TOKEN解析 4. 生成解析效率对比图表…

作者头像 李华