news 2026/4/28 23:19:05

论文洞察:面向RAG场景的KV Cache复用技术兰心兰心

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
论文洞察:面向RAG场景的KV Cache复用技术兰心兰心

研究背景

本文基于芝加哥大学、香港中文大学、微软在EuroSys25上发表的研究成果《CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion》进行深入分析。

CacheBlend是面向RAG场景的LLM推理加速方案,解决了多文本块输入下KV Cache复用率低、生成质量差问题,通过选择性重计算少量关键token的KV值,实现无质量损失的推理加速。

核心问题识别

在多文本块输入场景下,如何快速融合不同文本块的KV Cache,来平衡LLM prefill推理阶段的生成质量与推理速度这两个关键指标,已成为当下的首要需求。现有KV Cache复用方案存在以下挑战:

前缀KV Cache复用率低:仅能复用输入前缀的KV Cache,多文本块场景下复用率低,速度接近全量KV重新计算;

全量KV Cache复用生成质量低:忽略了文本块间的交叉注意力(跨块token的关联信息),导致LLM推理的生成质量大幅下降。

核心设计与创新

CacheBlend通过对关键性KV进行重新计算,实现了不同文本块KV Cache的高效融合,核心思路是复用大部分预计算KV Cache,仅重新计算少量关键token的KV值以恢复交叉注意力,同时通过流水线优化隐藏额外计算延迟。

  • 关键性KV重新计算:在Transformer每一层中选择性重新计算少量高KV偏差(High-KV-Deviation, HKVD)标记的KV值(约 10%-20%),恢复块间交叉注意力,保证生成质量;
  • 渐进式筛选策略:利用相邻层KV偏差的强相关性,从第一层筛选出候选token,后续层基于前一层的候选集逐步筛选,在保证准确性的同时降低计算开销;
  • 流水线优化:将某一层的关键性KV重新计算与下一层KV Cache的加载过程并行,隐藏重新计算的额外延迟,支持将KV Cache存储在低速大容量设备(如SSD)中。


不同KV Cache复用算法的原理图
实验验证
基于Mistral-7B、Yi-34B和Llama-70B模型对CacheBlend、前缀KV Cache、全量KV重新计算、全量KV Cache复用等方案进行了测试:

  • 时延:与全量KV重新计算、前缀KV Cache相比,CacheBlend在不损失生成质量且不增加存储成本的前提下,将TTFT缩短2.2-3.3倍;
  • 吞吐量:与全量KV重新计算相比,推理吞吐量提升2.8-5倍;
  • 准确性:与全量KV Cache复用相比,CacheBlend在问答任务上的F1分数提升0.1-0.2,在摘要任务上的Rouge-L分数提升0.03-0.25。

不同算法的吞吐量大小对比

研究价值

CacheBlend解决了多文本块输入下KV Cache复用难、推理慢、质量差的问题,实现了非前缀文本块的KV Cache有效复用,从而提高了面向RAG场景的LLM推理效率。

论文链接

https://dl.acm.org/doi/10.1145/3689031.3696098

以上内容转载自微信公众号—大模型软硬协同优化,链接:https://mp.weixin.qq.com/s/TAoa

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 15:13:59

反爬对抗实战:从日均被封100次到零封锁的完整方案

背景:之前爬某政务公开网站的时候,最开始日均被封IP超过100个,换代理的成本都快比项目收益高了。折腾了半个月优化,现在连续爬了3个月,零封锁,代理成本降了90%。一、被封的血泪史 最开始我以为反爬就是换个…

作者头像 李华
网站建设 2026/4/19 2:17:20

Display Driver Uninstaller (DDU):显卡驱动彻底清理的终极解决方案

Display Driver Uninstaller (DDU):显卡驱动彻底清理的终极解决方案 【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/display-drivers…

作者头像 李华
网站建设 2026/4/18 9:13:06

74LS74双D触发器在Multisim中的分频电路设计与仿真

1. 认识74LS74双D触发器 74LS74是数字电路实验中最常用的芯片之一,它内部集成了两个独立的D触发器单元。我第一次接触这个芯片是在大学电子实验课上,当时用它搭建了一个简单的LED闪烁电路。这种双列直插式封装的黑色小芯片看似普通,却能实现…

作者头像 李华
网站建设 2026/4/18 13:43:09

PCB板子走线的线宽如何设置

1、信号线一般10mil,最大到通电流为0.25A2、电源如果需要导通1A电流,那就设置40mil宽度如果导通2A以上的大电流,需要把宽度设置到80mil以上,可以放置实心区域进行加粗走线如果10A以上的电流,单靠加宽铜皮肯定是不够的&…

作者头像 李华
网站建设 2026/4/18 15:58:06

边缘AI的爆发,将催生哪些新的开发模式?

在人工智能(AI)技术飞速发展的浪潮中,边缘AI(Edge AI)正从概念走向现实,成为重塑软件开发生态的关键力量。边缘AI的核心在于将AI模型的推理与部分训练过程下沉至靠近数据源的终端设备(如物联网传…

作者头像 李华
网站建设 2026/4/22 2:30:21

嵌入式AI边缘部署雏形:STM32与PyTorch服务器协同的物体识别系统设计

嵌入式AI边缘部署雏形:STM32与PyTorch服务器协同的物体识别系统设计 1. 引言:当单片机遇上AI服务器 想象一下这样的场景:一个巴掌大的STM32开发板通过摄像头捕捉图像,瞬间将画面传送到云端服务器进行AI分析,再根据识…

作者头像 李华