南京大学、腾讯 ARC Lab、上海 AI Lab 联合提出 TimeLens,针对基于大模型的视频时间定位任务,从数据和算法两个角度进行了系统性的重新思考。
通过构建高质量的评测基准和训练数据集,并提出一系列简洁有效的算法优化,TimeLens 模型以仅 8B 参数实现了开源模型中的 SOTA,甚至超越了 Gemini-2.5-Flash。
TimeLens 模型、评测基准和训练集都已开源,欢迎大家关注和使用。
论文链接:
https://arxiv.org/abs/2512.14698
项目主页:
https://timelens-arc-lab.github.io/
代码链接:
https://github.com/TencentARC/TimeLens
背景问题与研究动机
随着相关领域的发展,多模态大模型(MLLMs)在理解视频中“发生了什么(What)”方面表现出色,但当被问及“何时发生(When)”时,往往表现不佳。
解决这个问题的关键,在于提升 MLLM 的视频时间定位(Video Temporal Grounding,VTG)能力。
在 VTG 任务中,模型需要根据文本 query 的描述,准确定位到视频中对应的时间段。尽管已有大量工作尝试提升 MLLM 的 VTG 能力,但该领域仍面临两大核心挑战:
1. 数据质量的问题被忽视:现有的 VTG 基准测试集存在大量标注错误、query 模糊等质量问题,导致评估结果不可靠。训练数据集也存在类似问题,导致实验无法体现某些算法设计的有效性。
2. 算法设计未定型:对于如何让 MLLM 更好地感知时间,以及有效的训练范式等,不同工作使用的训练、评测等设置都不一致。目前仍缺乏系统的、全面的实验,来探究一套有效的最佳实践(Best Practices)。
TimeLens 旨在从数据质量(Data Quality)和算法设计(Algorithmic Design)两个维度,系统性地解决上述问题。
数据质量:去伪存真,重塑基准
研究团队首先构建了严谨的人工检验和标注流水线,对现有的主流 VTG 基准(Charades-STA,ActivityNet Captions,QVHighlights)进行了严格的“体检”。
1. 现有数据的“陷阱”
分析发现,现有数据集中存在大量低质量标注,例如:
事件不存在:文本描述的事件在视频中没有发生。
多重事件:同一 query 对应视频中多个片段,但仅标注了其中一个。
query 模糊:文本 query 的描述有歧义,无法精确定位。
标注不准:时间边界偏移严重。
统计发现,现有基准中存在的错误比例极高,达到了令人震惊的程度。
2. TimeLens-Bench 与 TimeLens-100K
为了纠正上述问题,团队制定了严格的标注标准,手动重新标注了上述三个数据集,推出了 TimeLens-Bench。
评估结果显示,在修复后的基准上,模型排名发生了剧烈变化:旧基准往往高估了开源模型的能力,而低估了前沿私有模型(如Gemini)的真实水平。
此外,团队还设计了一套自动化流程,清洗并重标注了大规模训练数据,构建了包含 10 万条高质量数据的 TimeLens-100K 训练集。在该训练集上进行训练,相对于原始数据取得了显著的性能提升。
算法设计:探寻最优解
在高质量评测和训练数据的基础上,TimeLens 对算法设计的核心组件进行了深入探索,得出了一系列具有价值的结论。
1. 时间表示:交错文本编码最优
如何让 LLM 准确理解每一个视频帧的时间?团队对比了多种主流方法:包括位置编码(Position Embedding)、视觉叠加(Visual Overlay)和文本编码(Textual Encoding)。
结论:简单的交错文本前缀(Interleaved Textual Prefix),即在每帧视觉 Token 前插入文本形式的时间戳)效果最好,且无需修改模型架构,保留了简洁性。
2. 训练范式:Thinking-free RLVR
之前的工作主要采用监督微调(SFT)方法进行强化学习训练。而近期 DeepSeek-R1 等工作使得可验证奖励的强化学习(RLVR)范式获得大量关注。在 VTG 任务中,什么样的训练范式是最优的?
团队通过实验公平对比了不同的训练范式,包括 SFT,RLVR,以及二者的结合。此外,针对 RLVR 范式,还探究了显式的思考过程(Thinking)的必要性。
结论:实验表明,仅使用无思考过程的 RLVR(Thinking-free RLVR)进行训练,就能够取得最佳的性能,并显著提升训练和推理效率。
3. 训练秘籍:早停策略和基于难度采样
基于 Thinking-free RLVR 范式,团队进一步探究了训练中的关键因素,得到了两个关键的训练“秘籍”:
早停策略(Early Stopping):在 RL 训练中,当奖励指标逐渐收敛、进入平台期时应立即停止训练,继续训练反而会导致性能下降。
基于样本难度的采样:训练数据的难度应与模型能力匹配。通过预先估计每个样本的难度,并采样具有足够难度的样本,能最大化训练收益。
实验结果:SOTA 性能
集成了上述数据和算法的一系列最佳实践,团队发布了 TimeLens 系列模型。
评测结果显示,TimeLens系列模型相对于基线均取得了显著的性能提升。TimeLens-8B 模型实现了开源模型中的 SOTA 性能,以仅 8B 参数,全面超越了 GPT-5 和 Gemini-2.5-Flash 等前沿闭源模型。
团队在数据和算法层面的每一步改进,都对最终的优异性能起到了不可或缺的作用。
结语
TimeLens 不仅提供了一个强大的视频时间定位模型,更重要的是通过揭露低质量数据的“陷阱”和系统性算法探索,为未来的视频时间定位研究提供了一个更加正确的方向。
所有代码、数据和模型均已开源,欢迎大家关注和使用。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·