📖标题:Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents
🌐来源:arXiv, 2512.20092
🌟摘要
对长、多会话对话的时间推理是对话代理的关键能力。然而,现有的工作和我们的试点研究表明,随着对话历史的长度和累积噪声的增长,当前的长上下文模型难以准确识别时间相关信息,从而显着损害推理性能。为了解决这个问题,我们引入了MEMORY-T1,这是一个使用强化学习 (RL) 学习时间感知内存选择策略的框架。它采用从粗到细的策略,首先使用时间和相关性过滤器将对话历史修剪为候选集,然后是选择精确证据会话的 RL 代理。RL 训练由优化 (i) 答案准确度、(ii) 证据基础和 (iii) 时间一致性的多级奖励函数指导。特别是,时间一致性奖励通过评估与会话级别(时间顺序接近度)和话语级别(时间顺序保真度)的查询时间范围的对齐来提供密集信号,使代理能够解决微妙的时间歧义。在 Time-Dialog 基准测试中,Memory-T1 将 7B 模型提升到 67.0% 的总分,为开源模型建立了新的最先进的性能,并将 14B 基线高出 10.2%。消融研究表明时间一致性和证据基础奖励共同有助于 15.0% 的性能提升。此外,Memory-T1 保持高达 128k 个令牌的鲁棒性,其中基线模型崩溃,证明在广泛的对话历史中对噪声的有效性。代码和数据集可通过https://github.com/Elvin-Yiming-Du/Memory-T1/获取
🛎️文章简介
🔸研究问题:如何在多会话的对话历史中实现准确的时间推理,以提高对话代理的一致性和准确性?
🔸主要贡献:论文提出了一个基于强化学习的时间感知记忆检索框架Memory-T1,显著提高了多会话对话的时间推理性能。
📝重点思路
🔸采用粗到细的记忆检索策略,从大量对话历史中高效筛选出与时间相关的候选记忆。
🔸设计了一个多层次的奖励机制,包括答案准确性、证据基础和时间一致性奖励,以强化模型的时间推理能力。
🔸通过预测查询时间范围,粗略过滤不相关的会话,进而使用相关性排名进一步精细筛选候选记忆。
🔎分析总结
🔸Memory-T1在Time-Dialog和LoCoMo基准上实现了最先进的时间推理性能,特别是在128k标记上下文中表现出色。
🔸该框架使一个7B模型的性能超越了14B基线,证明了时间感知检索和稠密奖励优化的有效性。
🔸实验结果显示,使用多层奖励结构定量提升了时间一致性,显著改善了模型的时间推理能力,并保持了在不同长度上下文中的稳健性。
💡个人观点
论文的核心是筛选出候选记忆,通过多层次奖励机制增强模型的推理性能。