论文洞察：面向RAG场景的KV Cache复用技术兰心兰心-编程阁

研究背景

本文基于芝加哥大学、香港中文大学、微软在EuroSys25上发表的研究成果《CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion》进行深入分析。

CacheBlend是面向RAG场景的LLM推理加速方案，解决了多文本块输入下KV Cache复用率低、生成质量差问题，通过选择性重计算少量关键token的KV值，实现无质量损失的推理加速。

核心问题识别

在多文本块输入场景下，如何快速融合不同文本块的KV Cache，来平衡LLM prefill推理阶段的生成质量与推理速度这两个关键指标，已成为当下的首要需求。现有KV Cache复用方案存在以下挑战：

前缀KV Cache复用率低：仅能复用输入前缀的KV Cache，多文本块场景下复用率低，速度接近全量KV重新计算；

全量KV Cache复用生成质量低：忽略了文本块间的交叉注意力（跨块token的关联信息），导致LLM推理的生成质量大幅下降。

核心设计与创新

CacheBlend通过对关键性KV进行重新计算，实现了不同文本块KV Cache的高效融合，核心思路是复用大部分预计算KV Cache，仅重新计算少量关键token的KV值以恢复交叉注意力，同时通过流水线优化隐藏额外计算延迟。

关键性KV重新计算：在Transformer每一层中选择性重新计算少量高KV偏差（High-KV-Deviation, HKVD）标记的KV值（约 10%-20%），恢复块间交叉注意力，保证生成质量；
渐进式筛选策略：利用相邻层KV偏差的强相关性，从第一层筛选出候选token，后续层基于前一层的候选集逐步筛选，在保证准确性的同时降低计算开销；
流水线优化：将某一层的关键性KV重新计算与下一层KV Cache的加载过程并行，隐藏重新计算的额外延迟，支持将KV Cache存储在低速大容量设备（如SSD）中。

图不同KV Cache复用算法的原理图
实验验证
基于Mistral-7B、Yi-34B和Llama-70B模型对CacheBlend、前缀KV Cache、全量KV重新计算、全量KV Cache复用等方案进行了测试：

时延：与全量KV重新计算、前缀KV Cache相比，CacheBlend在不损失生成质量且不增加存储成本的前提下，将TTFT缩短2.2-3.3倍；
吞吐量：与全量KV重新计算相比，推理吞吐量提升2.8-5倍；
准确性：与全量KV Cache复用相比，CacheBlend在问答任务上的F1分数提升0.1-0.2，在摘要任务上的Rouge-L分数提升0.03-0.25。

图不同算法的吞吐量大小对比

研究价值

CacheBlend解决了多文本块输入下KV Cache复用难、推理慢、质量差的问题，实现了非前缀文本块的KV Cache有效复用，从而提高了面向RAG场景的LLM推理效率。

论文链接

https://dl.acm.org/doi/10.1145/3689031.3696098

以上内容转载自微信公众号—大模型软硬协同优化，链接：https://mp.weixin.qq.com/s/TAoa

背景：之前爬某政务公开网站的时候，最开始日均被封IP超过100个，换代理的成本都快比项目收益高了。折腾了半个月优化，现在连续爬了3个月，零封锁，代理成本降了90%。一、被封的血泪史最开始我以为反爬就是换个…

李华

1. 认识74LS74双D触发器 74LS74是数字电路实验中最常用的芯片之一，它内部集成了两个独立的D触发器单元。我第一次接触这个芯片是在大学电子实验课上，当时用它搭建了一个简单的LED闪烁电路。这种双列直插式封装的黑色小芯片看似普通，却能实现…

李华

1、信号线一般10mil，最大到通电流为0.25A2、电源如果需要导通1A电流，那就设置40mil宽度如果导通2A以上的大电流，需要把宽度设置到80mil以上，可以放置实心区域进行加粗走线如果10A以上的电流，单靠加宽铜皮肯定是不够的&…

李华

在人工智能（AI）技术飞速发展的浪潮中，边缘AI（Edge AI）正从概念走向现实，成为重塑软件开发生态的关键力量。边缘AI的核心在于将AI模型的推理与部分训练过程下沉至靠近数据源的终端设备（如物联网传…

李华

嵌入式AI边缘部署雏形：STM32与PyTorch服务器协同的物体识别系统设计 1. 引言：当单片机遇上AI服务器想象一下这样的场景：一个巴掌大的STM32开发板通过摄像头捕捉图像，瞬间将画面传送到云端服务器进行AI分析，再根据识…

李华

反爬对抗实战：从日均被封100次到零封锁的完整方案