news 2026/6/10 18:20:45

比SOTA快9倍,谷歌DeepMind时空重建,把视频变成时空搜索引擎

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
比SOTA快9倍,谷歌DeepMind时空重建,把视频变成时空搜索引擎

谷歌DeepMind联合伦敦大学和牛津大学发布了一个叫D4RT的时空重建框架,彻底颠覆了我们把视频变成3D世界的传统路子。

它不再像过去那样笨重地试图一次性把整个世界算出来,而是像一个随叫随到的时空向导,你问它哪里,它就告诉你哪里。

D4RT给视频装上了时光机,像查字典一样重建3D,让动态场景理解变得轻而易举。

把视频变成时空搜索引擎

想象一下,你正在看一部动作电影,画面里主角在奔跑,背景里的车在开,树叶在飘。

对于人类来说,理解这个场景是三维的、动态的非常自然,但对于计算机来说,这一直是个噩梦般的难题。

以前的AI要想把这段视频变成3D模型,通常采用的是笨办法。

它们试图做一个全知全能的画师,每一帧画面、每一个像素、每一秒钟,都要把它的3D位置、深度、形状全部算出来,不管你需不需要。

这就好比你要查一个单词,旧式的AI会把整本字典从头到尾抄写一遍给你看。

这种做法在面对静止的物体时还勉强凑合,一旦遇到跑动的动物、飞驰的汽车,计算量就会爆炸,而且经常出错,要么画面撕裂,要么东西凭空消失。

谷歌DeepMind联合团队带来的D4RT,不再试图一次性抄写整本字典,而是把自己变成了一个极速的搜索引擎。

D4RT的核心逻辑极其简单:按需提问。

它先看一遍视频,把整个场景的规律记在脑子里,然后你就只管问它。

你想知道那是只天鹅在第10秒飞到哪了?它告诉你。

你想知道摄影师当时是蹲着还是站着?它也告诉你。

你想把整个场景的3D地图画出来?它还是能告诉你。

这种指哪打哪的策略,直接绕开了那些繁重且无用的计算,让处理动态视频变得轻盈又高效。

看上面这张图,D4RT就像一个万能插座,所有的3D任务,不管是点云、轨迹追踪还是相机参数,都能通过同一个接口搞定。

这种设计让它跑得飞快,训练起来也特别省事。

以前那些像拼积木一样凑出来的模型,比如MegaSaM,要把好几个不同的模型强行拼在一起,还得费劲地让它们别打架。

而D4RT是一个整体,从头到尾一气呵成。

转个弯,从全量计算变成按需查询,处理复杂的动态世界其实可以很简单。

一个大脑,无数个分身

D4RT的内部结构美得像一个精巧的沙漏。

它的工作流程分为两步,简单来说就是先读书,后答题。

第一步是读书,也就是编码阶段。

视频被送进一个强大的编码器,这个编码器就像是一个过目不忘的大脑,它会把视频里物体怎么动、时间怎么流逝、哪里是前哪里是后等所有的信息,全部压缩成一个叫做全局场景表示的东西。

你可以把这个全局场景表示想象成一本已经被读懂并浓缩了的天书。

一旦这本天书写好了,第一阶段就结束了,接下来的所有操作都不需要再重新看视频,只需要查阅这本天书。

第二阶段是答题,也就是解码阶段。

这里有一个特别轻量级的解码器,它的工作就是回答你的问题。

这个提问的过程非常有趣,就像是在用一个时空坐标系玩填空题。

你给解码器一个坐标,告诉它:我要找第1帧里坐标是(u, v)的那个点,请告诉我它在第10帧的时候,如果我站在第5帧的相机位置看它,它在三维空间里的哪里?

这听起来有点绕,但正是这种灵活度让D4RT变得无比强大。

它实现了时间和空间的完全解绑。

你不需要非得站在现在的时刻看现在的东西,你可以站在过去看未来,也可以站在未来看过去。

每一个问题都是独立回答的,互不干扰。

如果你只关心画面里的一只小鸟,你就只问关于小鸟的问题,计算量极小。

如果你想重建整个森林,那你就问几百万个问题,虽然问题多了,但因为每个问题之间没有复杂的纠缠,计算机可以并行处理,速度依然飞快。

如表1所示,D4RT就像一把瑞士军刀,虽然只有一个刀柄(统一接口),但能变出各种工具。

你想看轨迹?就固定住一个点,问它每一帧在哪里。

你想看深度图?就问它这一帧里所有像素距离摄像头多远。

甚至连相机的参数(比如焦距、拍摄角度)它也能反推出来。

推导相机参数的过程就像是在做几何拼图。

它先问出同一个点在不同时间的位置,然后用一种叫Umeyama的算法(你可以理解为一种找最佳匹配的数学工具),算出这两个时刻之间相机是怎么移动的。

这背后的技术细节里有一个很有意思的点:它不仅看位置,还看长相。

在提问的时候,D4RT会给坐标,还会切一块这个点周围的小图片(RGB Patch)给解码器看。

这就好比警察找人,光给一个地址不够,如果再给一张照片,找到的概率就大多了。

实验发现,加上这块小图片,准确率直接飙升。

D4RT的速度达到了每秒200帧以上,比第二名快了9倍,比那个拼凑出来的MegaSaM快了整整100倍。

聪明的收割机策略

D4RT最厉害的一点,是它能追踪视频里每一个像素,不管它是静止的背景还是乱动的物体。

想要做到这一点,如果笨笨地对每个像素都从头追到尾,计算量还是会很大。

于是,D4RT发明了一套聪明收割机算法(Algorithm 1)。

这套算法的逻辑是这样的:

想象你在一片麦田里(视频像素网格),你要把麦子都收割了(追踪所有点)。

笨办法是派无数个收割机,不管那块地有没有收过,都开一遍。

D4RT的办法是:先派一批收割机出发。

每台收割机走过的路径,它都会在地图上标记为已收割。

下一波收割机出发前,先看看地图,凡是已经标记了已收割的地方,就不再派人去了,只去那些还没人碰过的空白区域。

这样一轮一轮下来,它能以最快的速度覆盖所有的像素,绝不做无用功。

实验表明,这种策略能根据视频的复杂程度,把速度再提升5到15倍。

这就是为什么D4RT能做到既全覆盖,又快得惊人。

其他的模型要么把天鹅画出了重影(MegaSaM),要么把花朵直接弄丢了。

哪怕是专门做追踪的SpatialTrackerV2,也因为只能追踪第一帧看得见的点,导致天鹅游走后,原本被天鹅挡住的水面它就不知道该咋办了,留下一个个黑洞。

只有D4RT,像个完美的修复师,不管是遮挡还是运动,它都能把整个4D时空填补得严丝合缝。

在同样的硬件条件下,D4RT能处理的轨迹数量是其他方法的18到300倍。

在实时视频处理上,D4RT把大家都甩在了身后。

用数据说话的全能冠军

在TAPVid-3D这个专门测试视频追踪能力的考场上,D4RT不管是知道相机参数,还是不知道相机参数,成绩都遥遥领先。

特别是在世界坐标系的追踪测试中,D4RT展现了惊人的空间理解能力。

即使相机在动,物体也在动,它依然能稳稳地锁死每一个点在真实世界里的绝对位置。

这就像是一个狙击手,不管自己在车上怎么颠簸,目标怎么跑,枪口始终稳稳地指着靶心。

在深度估计和点云重建这种硬核几何任务上,D4RT同样是大满贯选手。

在Sintel这样充满动态模糊和复杂光影的地狱级难度数据集上,D4RT的误差极低。

它对相机姿态的估计也准得离谱。

表6显示,无论是在室内的ScanNet还是室外的Sintel,D4RT都比之前的最强模型还要强上一大截。

为什么它能这么强?研究人员发现,之前提到的那个看小照片(RGB Patch)的策略至关重要。

此外,模型越大,效果越好。

从ViT-B换到ViT-g,深度估计的准确率肉眼可见地提升。

D4RT用一种极其优雅的方式,把视频里的三维世界看得清清楚楚。

参考资料:

https://d4rt-paper.github.io/

https://arxiv.org/pdf/2512.08924

https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 20:35:51

一句话搞定部署!Unsloth命令行使用技巧

一句话搞定部署!Unsloth命令行使用技巧 你是否还在为大模型微调的漫长等待和显存爆满而头疼?下载、安装、环境配置、依赖冲突……光是准备阶段就耗掉半天时间。其实,用Unsloth训练自己的模型,根本不需要写几十行脚本、不需手动编…

作者头像 李华
网站建设 2026/6/10 18:48:58

Speech Seaco Paraformer跨平台部署:Windows/Linux兼容性测试

Speech Seaco Paraformer跨平台部署:Windows/Linux兼容性测试 1. 为什么需要跨平台兼容性验证? 语音识别不是实验室里的玩具,而是要真正跑在办公室电脑、客户服务器、甚至开发者的笔记本上。Speech Seaco Paraformer 这个基于阿里 FunASR 的…

作者头像 李华
网站建设 2026/6/10 2:21:43

unet image Face Fusion广告创意应用?个性化海报生成实战

unet image Face Fusion广告创意应用?个性化海报生成实战 1. 这不是普通换脸,而是广告人的新画笔 你有没有遇到过这样的场景:电商团队要赶在节日大促前上线20款商品海报,每张都要把模特换成品牌代言人;设计部门接到需…

作者头像 李华
网站建设 2026/6/10 16:42:16

升级Z-Image-Turbo后,我的AI绘画效率翻倍了

升级Z-Image-Turbo后,我的AI绘画效率翻倍了 以前做AI绘画,我总在“等”字上耗掉大半时间:等模型加载、等提示词调试、等8步变50步、等一张图出完再改下一句描述——直到我把本地部署的Z-Image换成了Z-Image-Turbo。不是参数更多、不是显卡升…

作者头像 李华
网站建设 2026/6/10 15:28:36

小白也能懂的Z-Image-Turbo部署教程:浏览器访问即可生成图片

小白也能懂的Z-Image-Turbo部署教程:浏览器访问即可生成图片 你是不是也遇到过这些情况? 想用AI画张图,却卡在“安装依赖”“配置环境”“编译报错”的环节; 试了几个在线工具,又担心输入的提示词被存下来、图片被上传…

作者头像 李华
网站建设 2026/6/10 12:28:04

多级流水线在数字电路中的实现:实战案例解析

以下是对您提供的技术博文《多级流水线在数字电路中的实现:实战案例解析》的 深度润色与优化版本 。本次改写严格遵循您的全部要求: ✅ 彻底去除AI腔调与模板化表达(如“本文将从……几个方面阐述”) ✅ 摒弃所有程式化标题&a…

作者头像 李华