news 2026/4/16 18:17:46

8B模型超越Gemini 2.5 Flash!南大腾讯用TimeLens重塑大模型视频时间定位

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
8B模型超越Gemini 2.5 Flash!南大腾讯用TimeLens重塑大模型视频时间定位

南京大学、腾讯 ARC Lab、上海 AI Lab 联合提出 TimeLens,针对基于大模型的视频时间定位任务,从数据和算法两个角度进行了系统性的重新思考。

通过构建高质量的评测基准和训练数据集,并提出一系列简洁有效的算法优化,TimeLens 模型以仅 8B 参数实现了开源模型中的 SOTA,甚至超越了 Gemini-2.5-Flash。

TimeLens 模型、评测基准和训练集都已开源,欢迎大家关注和使用。

论文链接:

https://arxiv.org/abs/2512.14698

项目主页:

https://timelens-arc-lab.github.io/

代码链接:

https://github.com/TencentARC/TimeLens

背景问题与研究动机

随着相关领域的发展,多模态大模型(MLLMs)在理解视频中“发生了什么(What)”方面表现出色,但当被问及“何时发生(When)”时,往往表现不佳。

解决这个问题的关键,在于提升 MLLM 的视频时间定位(Video Temporal Grounding,VTG)能力。

在 VTG 任务中,模型需要根据文本 query 的描述,准确定位到视频中对应的时间段。尽管已有大量工作尝试提升 MLLM 的 VTG 能力,但该领域仍面临两大核心挑战:

1. 数据质量的问题被忽视:现有的 VTG 基准测试集存在大量标注错误、query 模糊等质量问题,导致评估结果不可靠。训练数据集也存在类似问题,导致实验无法体现某些算法设计的有效性。

2. 算法设计未定型:对于如何让 MLLM 更好地感知时间,以及有效的训练范式等,不同工作使用的训练、评测等设置都不一致。目前仍缺乏系统的、全面的实验,来探究一套有效的最佳实践(Best Practices)。

TimeLens 旨在从数据质量(Data Quality)和算法设计(Algorithmic Design)两个维度,系统性地解决上述问题。

数据质量:去伪存真,重塑基准

研究团队首先构建了严谨的人工检验和标注流水线,对现有的主流 VTG 基准(Charades-STA,ActivityNet Captions,QVHighlights)进行了严格的“体检”。

1. 现有数据的“陷阱”

分析发现,现有数据集中存在大量低质量标注,例如:

  • 事件不存在:文本描述的事件在视频中没有发生。

  • 多重事件:同一 query 对应视频中多个片段,但仅标注了其中一个。

  • query 模糊:文本 query 的描述有歧义,无法精确定位。

  • 标注不准:时间边界偏移严重。

统计发现,现有基准中存在的错误比例极高,达到了令人震惊的程度。

2. TimeLens-Bench 与 TimeLens-100K

为了纠正上述问题,团队制定了严格的标注标准,手动重新标注了上述三个数据集,推出了 TimeLens-Bench。

评估结果显示,在修复后的基准上,模型排名发生了剧烈变化:旧基准往往高估了开源模型的能力,而低估了前沿私有模型(如Gemini)的真实水平。

此外,团队还设计了一套自动化流程,清洗并重标注了大规模训练数据,构建了包含 10 万条高质量数据的 TimeLens-100K 训练集。在该训练集上进行训练,相对于原始数据取得了显著的性能提升。

算法设计:探寻最优解

在高质量评测和训练数据的基础上,TimeLens 对算法设计的核心组件进行了深入探索,得出了一系列具有价值的结论。

1. 时间表示:交错文本编码最优

如何让 LLM 准确理解每一个视频帧的时间?团队对比了多种主流方法:包括位置编码(Position Embedding)、视觉叠加(Visual Overlay)和文本编码(Textual Encoding)。

结论:简单的交错文本前缀(Interleaved Textual Prefix),即在每帧视觉 Token 前插入文本形式的时间戳)效果最好,且无需修改模型架构,保留了简洁性。

2. 训练范式:Thinking-free RLVR

之前的工作主要采用监督微调(SFT)方法进行强化学习训练。而近期 DeepSeek-R1 等工作使得可验证奖励的强化学习(RLVR)范式获得大量关注。在 VTG 任务中,什么样的训练范式是最优的?

团队通过实验公平对比了不同的训练范式,包括 SFT,RLVR,以及二者的结合。此外,针对 RLVR 范式,还探究了显式的思考过程(Thinking)的必要性。

结论:实验表明,仅使用无思考过程的 RLVR(Thinking-free RLVR)进行训练,就能够取得最佳的性能,并显著提升训练和推理效率。

3. 训练秘籍:早停策略和基于难度采样

基于 Thinking-free RLVR 范式,团队进一步探究了训练中的关键因素,得到了两个关键的训练“秘籍”:

  • 早停策略(Early Stopping):在 RL 训练中,当奖励指标逐渐收敛、进入平台期时应立即停止训练,继续训练反而会导致性能下降。

  • 基于样本难度的采样:训练数据的难度应与模型能力匹配。通过预先估计每个样本的难度,并采样具有足够难度的样本,能最大化训练收益。

实验结果:SOTA 性能

集成了上述数据和算法的一系列最佳实践,团队发布了 TimeLens 系列模型。

评测结果显示,TimeLens系列模型相对于基线均取得了显著的性能提升。TimeLens-8B 模型实现了开源模型中的 SOTA 性能,以仅 8B 参数,全面超越了 GPT-5 和 Gemini-2.5-Flash 等前沿闭源模型。

团队在数据和算法层面的每一步改进,都对最终的优异性能起到了不可或缺的作用。

结语

TimeLens 不仅提供了一个强大的视频时间定位模型,更重要的是通过揭露低质量数据的“陷阱”和系统性算法探索,为未来的视频时间定位研究提供了一个更加正确的方向。

所有代码、数据和模型均已开源,欢迎大家关注和使用。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 15:33:35

SlideSCI:科研演示效率革命的终极免费PPT插件指南

还在为繁琐的PPT制作过程烦恼吗?SlideSCI这款专为科研工作者设计的免费PPT插件,将彻底改变你的演示制作体验。它集成了智能图片标题、精准位置复制、一键对齐工具以及Markdown和LaTeX支持,让学术演示从此变得简单高效。 【免费下载链接】Slid…

作者头像 李华
网站建设 2026/4/16 14:23:19

Attention Is Not What You Need? 用格拉斯曼流形重构序列建模的几何美学

Attention Is All You Need 喊了这么多年,是不是把我们的思维都禁锢住了?自 2017 年以来,Self-Attention 几乎成为了现代序列建模的绝对基石。我们早已习惯了通过计算 将序列隐状态提升到一个庞大的 配对交互空间。这种范式虽然暴力且有效&am…

作者头像 李华
网站建设 2026/4/16 15:32:35

戴森球计划燃料棒生产蓝图:3步快速构建高效能源系统

FactoryBluePrints燃料棒生产蓝图仓库为戴森球计划玩家提供完整的能源解决方案,从基础氘核燃料棒到高级反物质燃料棒,构建全面的星际动力生产体系。这个专业蓝图集合让新手玩家也能轻松搭建高效的燃料棒生产线。 【免费下载链接】FactoryBluePrints 游戏…

作者头像 李华
网站建设 2026/4/16 14:23:07

终极指南:Kubo项目完整入门与实战技巧

终极指南:Kubo项目完整入门与实战技巧 【免费下载链接】kubo An IPFS implementation in Go 项目地址: https://gitcode.com/gh_mirrors/ku/kubo Kubo作为IPFS(InterPlanetary File System)的首个Go语言实现,是构建分布式文…

作者头像 李华
网站建设 2026/4/16 14:29:00

幽冥大陆(八十二)Python 水果识别训练视频识别 —东方仙盟练气期

指令一、日志核心信息解读指标数值关键结论Batch [0] Loss4.9721初始损失符合 208 类分类任务预期(理论值≈5.33)Batch [10] Loss3.6429训练 10 个批次后 Loss 下降 1.33,模型开始学习Batch [20] Loss2.5330训练 20 个批次后 Loss 再降 1.11&…

作者头像 李华
网站建设 2026/4/16 14:49:08

终极指南:3分钟开启DiffSynth-Studio AI视频创作新纪元

终极指南:3分钟开启DiffSynth-Studio AI视频创作新纪元 【免费下载链接】DiffSynth-Studio DiffSynth Studio 是一个扩散引擎。我们重组了包括 Text Encoder、UNet、VAE 等在内的架构,保持了与开源社区模型的兼容性,同时提高了计算性能。我们…

作者头像 李华