news 2026/6/14 11:27:27

【大模型加速】KV缓存:小白也能看懂的大模型性能优化黑科技,让ChatGPT快如闪电!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【大模型加速】KV缓存:小白也能看懂的大模型性能优化黑科技,让ChatGPT快如闪电!

KV 缓存是加速 LLM 推理的一种常用技术。要理解 KV 缓存,我们必须知道 LLM 如何输出下一个 Token。

算法原理

以下是基于 transformer 架构常见的产生下一个 token 的示意图,Transformer 为所有令牌生成隐藏状态,隐藏状态被投影到词汇空间,最后一个令牌的logits用于生成下一个令牌,对后续标记重复上述步骤。图示中使用 argmax 选择下一个 token,实际场景中一般top-k 或者 top-p 采样的方法随机产生下一个 token。

要生成一个新令牌,我们只需要最新令牌的隐藏状态。其他任何隐藏状态都不需要。

接下来,让我们看看注意力机制在 Transformer 层中是如何计算最后一个隐藏状态的。

在注意力机制中,我们首先计算查询矩阵和键矩阵的乘积,最后一行涉及最后一个词元的查询向量和所有键向量:

推理过程中不需要其他查询向量。此外,最终注意力机制结果的最后一行包含了最后一个查询向量以及所有键值向量。请查看下图以便更好地理解:

上述分析表明,要生成一个新的token,网络中的每次注意力操作只需要最后一个标记的查询向量,以及所有键值向量。

这里有另一个关键点:当我们生成新的token时,所有先前令牌使用的 KV 向量都不会改变。

因此,我们只需要为上一步生成的令牌生成一个 KV 向量。其余的 KV 向量可以从缓存中检索,以节省计算和时间。这叫做键值缓存(KV Caching)!与其冗余地计算所有上下文标记的 KV 向量,不如将它们缓存起来。

KV 缓存的算法流程

以下是使用 KV Caching 后生成下一个Token的计算流程:

  • 为上一步生成的令牌生成 QKV 向量。
  • 从缓存中获取所有其他 KV 向量。
  • 计算注意力。
  • 将新生成的KV值存储在缓存中。

KV 缓存带来的新挑战

如你所见,这可以节省推理时间。事实上,这就是为什么 ChatGPT 生成第一个 token 比后续 token 花费的时间更长的原因。在这段短暂的停顿期间,提示符的键值缓存会被计算出来。也就是说,KV缓存也占用大量内存。

以 Llama3-70B 为例,它的总层数 = 80,embedding 的维度 = 8k,最大输出尺寸 = 4k

这里:每个令牌在 KV 缓存中占用约 2.5 MB 的空间,4k 个token将占用 10.5 GB 的空间。

那么,如何系统的去学习大模型LLM?

作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/13 5:28:07

量子态测量偏差高达30%?用R优化模拟精度的4步紧急修复方案

第一章:量子态测量偏差高达30%?R模拟精度的紧急响应在近期量子计算模拟实验中,研究人员发现使用R语言进行量子态概率幅模拟时,测量结果与理论值偏差竟高达30%。这一异常引发了对R数值计算精度的深度审查,尤其是在处理复…

作者头像 李华
网站建设 2026/6/13 10:22:27

QTextEdit方法大全

📘 第一部分:构造函数 文本获取与设置方法🔹【构造函数】1. *QTextEdit(QWidget parent nullptr)创建一个空的多行文本输入框。示例:QTextEdit* edit new QTextEdit(this);2. *QTextEdit(const QString &text, QWidget par…

作者头像 李华
网站建设 2026/6/13 9:46:57

如何用角色+属性双引擎实现 Dify 混合检索的动态权限控制?

第一章:混合检索的 Dify 权限控制在构建基于 Dify 的智能应用时,混合检索机制与权限控制系统是保障数据安全与查询效率的核心组件。通过精细化的权限设计,可以确保不同角色仅能访问其授权范围内的知识库与检索结果,同时支持关键词…

作者头像 李华
网站建设 2026/6/12 22:20:34

揭秘R-Python模型部署难题:如何实现高效无缝同步?

第一章:R-Python模型部署同步的挑战与背景在现代数据科学实践中,R 和 Python 是两种最广泛使用的编程语言。尽管它们各自拥有强大的建模能力和丰富的生态系统,但在实际生产环境中,将基于 R 训练的模型与基于 Python 构建的服务系统…

作者头像 李华
网站建设 2026/6/10 15:35:25

从入门到精通:Dify分支跳转配置的8个必知场景

第一章:Dify工作流分支跳转的核心概念Dify 工作流中的分支跳转机制是实现复杂业务逻辑编排的关键能力。通过条件判断与动态路径选择,开发者可以控制执行流程在不同节点之间灵活流转,从而满足多样化的应用场景需求。分支跳转的基本原理 分支跳…

作者头像 李华
网站建设 2026/6/14 2:26:53

科研工作者必备:LobeChat辅助论文写作全流程

科研工作者必备:LobeChat辅助论文写作全流程 在当今科研节奏日益加快的背景下,研究者们不仅要产出高质量成果,还要在写作、表达和传播上下足功夫。一篇论文从构思到发表,往往要经历数周甚至数月的反复打磨——文献调研耗时、结构设…

作者头像 李华