news 2026/6/10 21:47:44

Meta:LLM预填充上下文缓存策略

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Meta:LLM预填充上下文缓存策略

📖标题:Let’s (not) just put things in Context: Test-Time Training for Long-Context LLMs
🌐来源:arXiv, 2512.13898

🌟摘要

训练和架构策略的进展使 LLM 在上下文长度上具有数百万个标记。然而,经验证据表明,这种长上下文 LLM 可以比可以可靠地使用的文本消耗更多的文本。另一方面,已经表明,在涉及多步推理的具有挑战性的任务上,推理时间计算可用于扩展 LLM 的性能,通常是通过生成思维标记。通过对沙盒长上下文任务的受控实验,我们发现这种推理时间策略显示出快速递减的回报,并且在长上下文中失败。我们将这些失败归因于分数稀释,这是静态自注意力固有的现象。此外,我们表明当前的推理时间策略不能在一定条件下检索相关的长上下文信号。我们提出了仅查询测试时间训练 (qTTT),它通过对给定上下文的目标梯度更新,可证明克服了静态自注意力的局限性。我们发现,如何花费推理时间计算的简单转变会导致模型和长上下文基准的性能持续显着提高。qTTT 在 LongBench-v2 和 ZeroScrolls 基准的子集上平均导致 Qwen3-4B 的大量 12.6% 和 14.1% 点改进。结论是实用的:对于长上下文,少量特定于上下文的训练比当前推理时间缩放策略(如产生更多思考标记)更好地使用推理计算。

🛎️文章简介

🔸研究问题:如何有效利用推理时计算资源来改善长上下文的检索和推理能力?
🔸主要贡献:论文提出了一种新的测试时训练方法(qTTT),通过在长上下文任务中进行查询更新,显著提高了模型的性能。

📝重点思路

🔸引入查询仅测试时训练(qTTT),通过一次预填充缓存键值对(K/V),然后仅对查询投影进行轻量级梯度更新,从而减少了计算开销。
🔸利用实验分析验证了传统的推理时间计算策略在长上下文中的表现不佳,强调了qTTT的优势。
🔸通过设置受控的合成任务,深入研究了长上下文失败的原因,如“评分稀释”现象,并提出qTTT可以有效应对这一挑战。
🔸采用多种真实世界数据集(如ZeroScrolls和LongBench-v2)进行评估,覆盖多个任务和模型规模(1.7B到8B参数)。

🔎分析总结

🔸实验结果表明,qTTT在绝大多数测试场景下都能显著超越标准的推理解码和基于“思考”代币的策略,尤其是在代码理解和多文档问答等多跳推理任务中,性能提升超过20%。
🔸随着上下文长度的增加,传统方法在性能上呈现迅速下降的趋势,而qTTT则保持了较高的准确率,显示出其在长上下文处理上的有效性。
🔸在结构固定、不改变预训练和输入数据的情况下,qTTT成功提高了目标与干扰物之间的分离度,缓解了长上下文推理中的问题。
🔸qTTT方法相较于传统推理时间计算的思路具有更低的计算费用,同时提升了模型在长文档情境下的性能。

💡个人观点

论文的创新点在于高效的计算调整策略,通过单次填充来建立一个持久的上下文缓存,并进行针对性的查询调整,以优化长上下文的推理性能。

🧩附录


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 17:01:17

基于Java的商业特许经营备案智慧管理系统的设计与实现全方位解析:附毕设论文+源代码

1. 为什么这个毕设项目值得你 pick ? 商业特许经营备案智慧管理系统整合了特许人企业管理、品牌管理、合同管理和知识产权等模块,构建了一个全面的数据录入与分析平台。系统通过SpringMVC和MySQL实现数据的高效处理,并运用ECharts.js进行可视化展示&am…

作者头像 李华
网站建设 2026/6/9 18:42:15

我发现多组学数据汇聚卡顿 后来用MPPDB+Hadoop混合架构才稳住

📝 博客主页:jaxzheng的CSDN主页 目录医疗数据科学:当Excel表格遇上手术刀 一、从"救命"到"救数据"的魔幻现实 二、数据科学家的"医疗特工队" 三、真实世界的"数据孤岛"奇遇记 四、那些年我们坑过的…

作者头像 李华
网站建设 2026/6/10 14:47:38

介观交通流仿真软件:VISSIM (介观模式)_(8).信号控制系统仿真

信号控制系统仿真 在交通仿真软件中,信号控制系统仿真是一项重要的功能,它可以帮助交通工程师和规划师评估和优化信号控制策略。VISSIM 作为一款功能强大的介观交通流仿真软件,提供了丰富的信号控制仿真功能,使得用户可以模拟各种…

作者头像 李华
网站建设 2026/6/10 14:54:03

使用 LocalAI 和 Elasticsearch 构建本地 RAG 个人知识助手

作者:来自 Elastic Jeffrey Rengifo 学习如何创建一个私有、离线的本地 RAG 个人知识助手,使用 e5-small 进行 embeddings,并在 Elasticsearch 中使用 dolphin3.0-qwen2.5-0.5b 进行 completions,以总结会议和内部报告。 Agent Bu…

作者头像 李华
网站建设 2026/6/10 10:34:30

7.4 性能度量指标:准确率、精确率、召回率、F1分数、AUC-ROC

7.4 性能度量指标:准确率、精确率、召回率、F1分数、AUC-ROC 模型评估不仅需要一个独立的测试集,更需要选择恰当的度量指标来量化其性能。对于分类任务,单一指标(如准确率)往往无法全面反映模型的行为特性,尤其是在数据分布不平衡或不同错误类型的代价差异悬殊的场景下。…

作者头像 李华