港中文：LLM时间感知记忆检索框架-编程阁

📖标题：Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents
🌐来源：arXiv, 2512.20092

🌟摘要

对长、多会话对话的时间推理是对话代理的关键能力。然而，现有的工作和我们的试点研究表明，随着对话历史的长度和累积噪声的增长，当前的长上下文模型难以准确识别时间相关信息，从而显着损害推理性能。为了解决这个问题，我们引入了MEMORY-T1，这是一个使用强化学习 (RL) 学习时间感知内存选择策略的框架。它采用从粗到细的策略，首先使用时间和相关性过滤器将对话历史修剪为候选集，然后是选择精确证据会话的 RL 代理。RL 训练由优化 (i) 答案准确度、(ii) 证据基础和 (iii) 时间一致性的多级奖励函数指导。特别是，时间一致性奖励通过评估与会话级别（时间顺序接近度）和话语级别（时间顺序保真度）的查询时间范围的对齐来提供密集信号，使代理能够解决微妙的时间歧义。在 Time-Dialog 基准测试中，Memory-T1 将 7B 模型提升到 67.0% 的总分，为开源模型建立了新的最先进的性能，并将 14B 基线高出 10.2%。消融研究表明时间一致性和证据基础奖励共同有助于 15.0% 的性能提升。此外，Memory-T1 保持高达 128k 个令牌的鲁棒性，其中基线模型崩溃，证明在广泛的对话历史中对噪声的有效性。代码和数据集可通过https://github.com/Elvin-Yiming-Du/Memory-T1/获取

🛎️文章简介

🔸研究问题：如何在多会话的对话历史中实现准确的时间推理，以提高对话代理的一致性和准确性？
🔸主要贡献：论文提出了一个基于强化学习的时间感知记忆检索框架Memory-T1，显著提高了多会话对话的时间推理性能。

📝重点思路

🔸采用粗到细的记忆检索策略，从大量对话历史中高效筛选出与时间相关的候选记忆。
🔸设计了一个多层次的奖励机制，包括答案准确性、证据基础和时间一致性奖励，以强化模型的时间推理能力。
🔸通过预测查询时间范围，粗略过滤不相关的会话，进而使用相关性排名进一步精细筛选候选记忆。

🔎分析总结

🔸Memory-T1在Time-Dialog和LoCoMo基准上实现了最先进的时间推理性能，特别是在128k标记上下文中表现出色。
🔸该框架使一个7B模型的性能超越了14B基线，证明了时间感知检索和稠密奖励优化的有效性。
🔸实验结果显示，使用多层奖励结构定量提升了时间一致性，显著改善了模型的时间推理能力，并保持了在不同长度上下文中的稳健性。