8B模型超越Gemini 2.5 Flash！南大腾讯用TimeLens重塑大模型视频时间定位-编程阁

南京大学、腾讯 ARC Lab、上海 AI Lab 联合提出 TimeLens，针对基于大模型的视频时间定位任务，从数据和算法两个角度进行了系统性的重新思考。

通过构建高质量的评测基准和训练数据集，并提出一系列简洁有效的算法优化，TimeLens 模型以仅 8B 参数实现了开源模型中的 SOTA，甚至超越了 Gemini-2.5-Flash。

TimeLens 模型、评测基准和训练集都已开源，欢迎大家关注和使用。

论文链接：

https://arxiv.org/abs/2512.14698

项目主页：

https://timelens-arc-lab.github.io/

代码链接：

https://github.com/TencentARC/TimeLens

背景问题与研究动机

随着相关领域的发展，多模态大模型（MLLMs）在理解视频中“发生了什么（What）”方面表现出色，但当被问及“何时发生（When）”时，往往表现不佳。

解决这个问题的关键，在于提升 MLLM 的视频时间定位（Video Temporal Grounding，VTG）能力。

在 VTG 任务中，模型需要根据文本 query 的描述，准确定位到视频中对应的时间段。尽管已有大量工作尝试提升 MLLM 的 VTG 能力，但该领域仍面临两大核心挑战：

1. 数据质量的问题被忽视：现有的 VTG 基准测试集存在大量标注错误、query 模糊等质量问题，导致评估结果不可靠。训练数据集也存在类似问题，导致实验无法体现某些算法设计的有效性。

2. 算法设计未定型：对于如何让 MLLM 更好地感知时间，以及有效的训练范式等，不同工作使用的训练、评测等设置都不一致。目前仍缺乏系统的、全面的实验，来探究一套有效的最佳实践（Best Practices）。

TimeLens 旨在从数据质量（Data Quality）和算法设计（Algorithmic Design）两个维度，系统性地解决上述问题。

数据质量：去伪存真，重塑基准

研究团队首先构建了严谨的人工检验和标注流水线，对现有的主流 VTG 基准（Charades-STA，ActivityNet Captions，QVHighlights）进行了严格的“体检”。

1. 现有数据的“陷阱”

分析发现，现有数据集中存在大量低质量标注，例如：

事件不存在：文本描述的事件在视频中没有发生。
多重事件：同一 query 对应视频中多个片段，但仅标注了其中一个。

query 模糊：文本 query 的描述有歧义，无法精确定位。
标注不准：时间边界偏移严重。

统计发现，现有基准中存在的错误比例极高，达到了令人震惊的程度。

2. TimeLens-Bench 与 TimeLens-100K

为了纠正上述问题，团队制定了严格的标注标准，手动重新标注了上述三个数据集，推出了 TimeLens-Bench。

评估结果显示，在修复后的基准上，模型排名发生了剧烈变化：旧基准往往高估了开源模型的能力，而低估了前沿私有模型（如Gemini）的真实水平。

此外，团队还设计了一套自动化流程，清洗并重标注了大规模训练数据，构建了包含 10 万条高质量数据的 TimeLens-100K 训练集。在该训练集上进行训练，相对于原始数据取得了显著的性能提升。

算法设计：探寻最优解

在高质量评测和训练数据的基础上，TimeLens 对算法设计的核心组件进行了深入探索，得出了一系列具有价值的结论。

1. 时间表示：交错文本编码最优

如何让 LLM 准确理解每一个视频帧的时间？团队对比了多种主流方法：包括位置编码（Position Embedding）、视觉叠加（Visual Overlay）和文本编码（Textual Encoding）。

结论：简单的交错文本前缀（Interleaved Textual Prefix），即在每帧视觉 Token 前插入文本形式的时间戳）效果最好，且无需修改模型架构，保留了简洁性。

2. 训练范式：Thinking-free RLVR

之前的工作主要采用监督微调（SFT）方法进行强化学习训练。而近期 DeepSeek-R1 等工作使得可验证奖励的强化学习（RLVR）范式获得大量关注。在 VTG 任务中，什么样的训练范式是最优的？

团队通过实验公平对比了不同的训练范式，包括 SFT，RLVR，以及二者的结合。此外，针对 RLVR 范式，还探究了显式的思考过程（Thinking）的必要性。

结论：实验表明，仅使用无思考过程的 RLVR（Thinking-free RLVR）进行训练，就能够取得最佳的性能，并显著提升训练和推理效率。

3. 训练秘籍：早停策略和基于难度采样

基于 Thinking-free RLVR 范式，团队进一步探究了训练中的关键因素，得到了两个关键的训练“秘籍”：

早停策略（Early Stopping）：在 RL 训练中，当奖励指标逐渐收敛、进入平台期时应立即停止训练，继续训练反而会导致性能下降。
基于样本难度的采样：训练数据的难度应与模型能力匹配。通过预先估计每个样本的难度，并采样具有足够难度的样本，能最大化训练收益。

实验结果：SOTA 性能

集成了上述数据和算法的一系列最佳实践，团队发布了 TimeLens 系列模型。

评测结果显示，TimeLens系列模型相对于基线均取得了显著的性能提升。TimeLens-8B 模型实现了开源模型中的 SOTA 性能，以仅 8B 参数，全面超越了 GPT-5 和 Gemini-2.5-Flash 等前沿闭源模型。

团队在数据和算法层面的每一步改进，都对最终的优异性能起到了不可或缺的作用。

结语

TimeLens 不仅提供了一个强大的视频时间定位模型，更重要的是通过揭露低质量数据的“陷阱”和系统性算法探索，为未来的视频时间定位研究提供了一个更加正确的方向。

所有代码、数据和模型均已开源，欢迎大家关注和使用。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

8B模型超越Gemini 2.5 Flash！南大腾讯用TimeLens重塑大模型视频时间定位

SlideSCI：科研演示效率革命的终极免费PPT插件指南

Attention Is Not What You Need? 用格拉斯曼流形重构序列建模的几何美学

戴森球计划燃料棒生产蓝图：3步快速构建高效能源系统

终极指南：Kubo项目完整入门与实战技巧

幽冥大陆(八十二)Python 水果识别训练视频识别 —东方仙盟练气期

终极指南：3分钟开启DiffSynth-Studio AI视频创作新纪元