news 2026/4/16 14:00:23

李飞飞团队新作:无需修改架构,重组数据即显著提升AI对视频理解能力

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
李飞飞团队新作:无需修改架构,重组数据即显著提升AI对视频理解能力

一种简单得令人惊讶的方法,只需将现有的短视频素材重组,就能在不增加计算成本的前提下显著提升AI对长视频的理解能力。

斯坦福大学、微软研究院和威斯康辛大学团队,提出了VideoWeave数据中心化方法。

不需要发明新的复杂架构,也不需要耗资巨大的新标注,仅仅通过改变喂给模型的数据组织形式,就能让AI变得更聪明。

训练视频语言模型一直是个烧钱的苦差事。

相比于静态图像,视频多了一个时间维度,处理一秒钟的视频往往需要分析数十帧画面,计算量成倍增加。

更让人头疼的是高质量数据的匮乏,现有的视频数据集大多是只有几秒到一分钟的短片段,配上一句简单的描述。

而在真实应用场景中,我们希望AI能看懂半小时甚至一小时的长电影,理解其中复杂的剧情走向。

用短跑的训练方式去跑马拉松,效果自然不尽如人意。

拼接短视频构建合成长上下文

视频理解的核心难点在于长上下文的处理。

当人类观看一段长视频时,大脑需要不断记忆之前的片段,并将当前的画面与记忆关联起来。

现有的模型训练受限于显存和计算资源,通常只能在一个批次中采样少量帧数,且这些帧数往往来自同一个短视频。

模型很快学会了偷懒,它发现相邻的帧长得差不多,只需要看几眼就能猜出大概,根本不需要建立长期的时空依赖关系。

VideoWeave打破了这种舒适区。

它的逻辑非常直观,既然缺乏带标注的长视频,那就用现有的短视频人工合成。

研究者从WebVid-10M这样的海量短视频库中取材,将多个毫无关联的短视频剪辑拼接在一起,形成一个更长的“合成视频”。

与此同时,这些视频原本的文本描述也被串联起来,作为新的训练目标。

图中展示了VideoWeave的基本原理。

它并没有改变模型的内部构造,而是改变了输入端。如果设定的计算预算是处理16帧画面,传统方法会从一个视频里抽取16帧。

VideoWeave则可能从4个不同的视频里各抽取4帧,或者从16个视频里各抽取1帧,将它们按顺序拼成一个序列。

这种做法巧妙地模拟了长视频中可能出现的场景切换和内容跳跃。

模型被迫去适应画面内容的剧烈变化,它必须时刻保持警惕,因为下一秒的画面可能从“湖上泛舟”瞬间变成“篮球比赛”。

为了回答准确,模型必须真正理解每一帧的内容,而不是依靠惯性去猜测。

这种训练方式在保持计算量不变的情况下,极大地丰富了模型在一次更新中接触到的视觉语义信息。

随机拼接竟然战胜了精心聚类

在确定了拼接策略后,一个自然的问题浮出水面:应该把什么样的视频拼在一起。

直觉告诉我们,如果把内容相似的视频拼在一起,比如都是户外运动或者都是烹饪教学,模型可能更容易理解,形成的合成视频也更像一个连贯的故事。

为了验证这一点,研究团队尝试了基于视觉相似度的聚类拼接。

他们提取了视频的特征,利用改进的 K-均值算法将相似的视频归为一类,然后只从同一个类别中选取视频进行拼接。

下图展示了这种聚类算法产生的视觉群组。

除了视觉上的连贯,研究者还尝试了文本上的连贯。

他们利用GPT-4o-mini将原本独立的短句描述改写成一段流畅通顺的叙事文本,希望这能帮助模型更好地建立语言与视觉的联系。

实验结果却给了所有人一记响亮的耳光。精心设计的视觉聚类和文本润色,表现竟然不如最简单的随机拼接。

表1展示了不同方法在VideoMME基准测试上的得分。随机拼接的VideoWeave方法(Multi-Video FT)不仅击败了仅使用图像训练的基准,也显著优于传统的单视频微调(Single-Video FT)。

进一步的分析揭示了原因。

当视频在视觉上过于相似时,模型又开始偷懒了,它发现根据前几帧的内容就能很容易地推断出后面的内容,从而忽略了细微的差别。

而随机拼接带来的强烈反差,强迫模型必须关注每一个片段的独特特征。

至于文本润色,GPT-4虽然把句子写得漂亮了,但也丢失了原始数据中的具体细节,甚至产生了一些幻觉,导致模型学到了错误的信息。

最原始的、用空格隔开的简单字幕拼接,反而提供了最精准的监督信号。

表2详细列出了不同的拼接数量对性能的影响。

表3则对比了随机选择与聚类选择的效果。

数据表明,在总帧数固定的情况下,将两个不同的视频拼接在一起,即每个视频贡献8帧,达到了最佳的平衡点。

这既保证了每个片段有足够的内部连贯性供模型理解动作,又提供了足够的上下文切换来锻炼模型的适应能力。

数据重组比修改架构更具性价比

VideoWeave证明:数据的使用方式往往比模型架构的微调更关键。

通过简单的数据重组,我们可以在不增加任何硬件投入的情况下,挖掘出模型更大的潜力。

这种方法实际上是在模拟一种更高效的学习过程,就像学生在复习时,不再是死记硬背某一章,而是将不同章节的知识点穿插在一起复习,从而锻炼出融会贯通的能力。

这种能力的提升在定性分析中表现得尤为明显。

图4展示了一个VideoMME中的多项选择题案例。

在这个例子中,模型需要回答厄尔尼诺现象的主要原因。

VideoWeave训练出的模型能够准确捕捉到“信风减弱”这一关键信息,而标准微调的模型则给出了错误的答案。

这说明经过多样化拼接数据训练的模型,在处理复杂信息和排除干扰项方面具有更强的鲁棒性。

图5进一步展示了不同类别下的性能提升情况。

可以看到,在属性感知、空间感知和时序推理等多个维度,VideoWeave都取得了显著的进步。

这并非是因为模型本身变得更大了,而是它看视频的方式发生了质的改变。

它不再盯着单一的画面发呆,而是学会了在不断变化的视觉流中寻找关键线索。

这种训练策略不仅适用于学术研究,对于工业界在大规模视频数据上进行高效预训练也具有极高的参考价值。

参考资料:

https://arxiv.org/pdf/2601.06309

https://github.com/sagarwal02/videoweave

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/24 3:05:03

别再傻等了,给 Claude Code 装个通知铃铛

最近用 Claude Code、Copilot CLI 这类 AI Agent 工具的时候,有一个挺烦人的问题:让 AI 在后台跑任务,我总是会忍不住去查看他的执行状态,有时候比较复杂的任务可能会耗时十来分钟,每次来回切换非常浪费时间。 背景 …

作者头像 李华
网站建设 2026/4/14 17:57:11

2026大专大数据技术专业学数据分析指南

大数据技术专业核心课程与数据分析的关系大数据技术专业通常涵盖数据采集、存储、处理、可视化等核心模块,数据分析作为数据处理的关键环节,是大数据技术栈的重要组成部分。掌握数据分析能力有助于理解数据挖掘、机器学习等高级应用场景。数据分析课程可…

作者头像 李华
网站建设 2026/4/12 15:29:17

海外仓VS本地直发,谁更容易被TRO?

引言:跨境发货方式如何影响 TRO 风险随着跨境电商业务快速发展,越来越多卖家开始在全球不同地区布局仓储和发货。海外仓(Fulfillment by Overseas Warehouse)和本地直发(Direct Shipping)各有优劣&#xff…

作者头像 李华
网站建设 2026/4/11 3:21:56

Agent Skills 终极指南:从零到精通

一个设计良好的 Skill,所带来的智能能力足以匹敌,甚至超越完整的 AI 产品。更关键的是:任何人都能自己开发 Skill,不需要技术背景。以我的 Article-Copilot 为例,只用一个 Skill,我就搭建了一个能从素材处理…

作者头像 李华
网站建设 2026/4/11 10:31:34

基于PLC的起重机控制系统设计

基于PLC的起重机控制系统设计 第一章 设计背景与核心目标 传统起重机多采用继电器-接触器控制或简易变频控制,存在控制逻辑固定、安全保护不足、作业精度低、故障率高、依赖人工经验操作等问题,易引发超载、冲顶、溜车等安全事故,难以满足现代…

作者头像 李华
网站建设 2026/4/9 18:45:34

教育OA系统如何用CKEditor实现Word公式转MathML代码?

项目需求解决方案 项目负责人:XXX 日期:2023年XX月XX日 一、需求分析与技术选型 1. 核心需求 功能需求: Word粘贴功能:支持从Word复制内容直接粘贴到CKEditor,保留表格、形状、公式、字体(GB2312兼容&…

作者头像 李华