4D通用世界模型！中科院NeoVerse用百万单目视频直接构建-编程阁

中国科学院自动化研究所与CreateAI团队，利用海量互联网单目视频构建了一个4D世界模型NeoVerse。

构建即时响应、物理一致的4D世界模型，长期以来面临着数据匮乏与训练低效的双重诅咒。

传统的解决方案要么受困于昂贵稀缺的多视角数据，限制了模型的泛化能力，要么依赖繁重的离线预处理步骤，导致计算与存储成本居高不下。

NeoVerse，通过一种全新的端到端架构打破了这一僵局。

该模型无需相机姿态先验，能够直接从野外单目视频中高效重建4D高斯泼溅（4DGS），并通过模拟真实世界的成像退化来训练生成模型，实现了从重建到生成的全链路闭环。

NeoVerse在100万个视频片段上完成了训练，不仅在标准基准测试中刷新了重建与生成的性能记录，更为视频编辑、稳像及3D目标跟踪等下游任务提供了强大的通用底座。

摆脱离线束缚的实时4D重建架构

4D世界模型的核心愿景是混合重建与生成，即先理解场景的几何与运动结构，再以此引导新视角的视频生成。

现有的主流方法往往在可扩展性上通过了妥协。

一部分工作依赖于多视角静态视频生成的伪数据，无法处理真正的动态4D场景。

另一部分工作虽然利用了灵活的单目视频数据，但必须经历漫长的离线预处理，例如预先运行深度估计或优化高斯场。

这种离线策略不仅带来了巨大的计算负担和存储压力，还使得在线数据增强变得不可能，限制了模型利用海量数据的潜力。

NeoVerse的核心哲学是将整个流程设计为对野外单目视频具有高度可扩展性。

为了实现这一目标，研究团队首先构建了一个基于VGGT架构的无姿态前馈4D高斯重建模型。

这个模型摒弃了传统方法中针对每个场景单独优化的低效路径，转而采用一次前向传播即可预测出场景的几何与外观属性。

为了捕捉视频中的动态变化，模型引入了双向运动建模机制。

VGGT本身虽然能提取帧特征并聚合空间信息，但对时间维度的感知较弱。

NeoVerse通过在帧特征上引入时间维度的切片操作，将特征分为两部分。

一部分作为查询，另一部分作为键和值，分别计算前向（t到t+1）和后向（t到t-1）的运动特征。

这种双向设计至关重要，它使得高斯原语不仅包含位置、旋转和缩放等静态属性，还包含了线速度和角速度的瞬时运动信息。

在训练效率方面，NeoVerse采用了一种稀疏关键帧的在线重建策略。

对于长视频输入，模型只选取少量的关键帧进行网络推理，预测出这些时刻的高斯分布。

对于非关键帧时刻，系统利用预测出的双向速度信息，通过线性插值将关键帧的高斯原语平流传输到目标时刻。

这种设计将繁重的网络推理计算量降到了最低，同时保留了对整个视频时间段的覆盖能力。

通过高斯不透明度的衰减机制，模型能够自然地处理非均匀的关键帧间隔，确保在不同时刻之间实现平滑过渡。

这种设计不仅实现了真正意义上的在线训练，还极大地提升了数据吞吐量。

高效率的重建模块能够即时处理输入的视频流，为后续的生成模型提供实时的几何引导条件。

这种架构上的创新，彻底移除了阻碍4D世界模型利用大规模互联网视频数据的绊脚石。

模拟成像退化以提升生成鲁棒性

在混合重建与生成的范式中，重建得到的几何信息通常作为条件输入到视频生成模型中。

使用多视角或静态数据集时，我们可以轻松获得完美的对应训练对。

但在处理野外单目视频时，生成新视角所依赖的渲染图往往充满了瑕疵。

由于单目深度估计的固有歧义和遮挡问题，从新视角渲染出的图像通常包含空洞、扭曲和边缘伪影。

如果直接使用这些低质量的渲染图进行训练，生成模型可能会学会这些伪影，导致输出视频中出现鬼影或模糊。

为了解决这个问题，NeoVerse提出了一套巧妙的在线单目退化模拟策略。

其核心思想是：既然推理时的条件是退化的，那么训练时就应该主动模拟这种退化，让模型学会如何从烂图中恢复出高质量的视频。

第一种模拟技术是基于可见性的高斯剔除。

在训练过程中，系统会基于稀疏关键帧预测的相机轨迹，随机生成一个新的变换轨迹。

为了模拟遮挡效应，系统利用深度信息判断哪些高斯原语在新视角下是不可见的，并将这些原语直接剔除。

然后再将剩余的高斯投影回原始视角进行渲染。

这样得到的图像就会人为地产生遮挡造成的空洞，迫使生成模型利用上下文信息去脑补被遮挡的区域。

第二种技术针对的是深度不连续边缘处的飞像素现象。

神经网络在预测深度时，倾向于在物体边缘输出平均深度值以最小化回归损失，这会导致渲染时出现连接前景和背景的虚假像素。

NeoVerse引入了一种平均几何滤波器来模拟这种效应。

系统在新视角下的深度图中应用平均滤波，并据此调整高斯中心的位置。

当这些修改后的高斯被渲染回原始视角时，就会重现那种典型的边缘拉丝和扭曲现象。

这三种（包括深度误差导致的变形）基于几何原理的简单模拟技术，极其有效地提升了生成模型的鲁棒性。

通过在训练阶段引入这些经过精心设计的损坏数据，生成模型被训练成了一个强大的修复器。

它不再盲目信任输入的几何条件，而是学会在尊重几何结构的同时，利用视频扩散模型强大的先验知识来抑制伪影，并幻觉出合理的细节。

这种策略使得NeoVerse能够安全地使用海量且含有噪声的野外视频进行训练。

实验表明，经过退化模拟训练的模型，即使在面对剧烈相机运动导致的严重几何失真时，依然能够生成清晰、连贯且符合物理逻辑的视频内容。

这与某些完全依赖生成模型而缺乏几何约束的方法形成了鲜明对比，后者往往无法保证轨迹的可控性。

动态感知的推理与全能应用表现

在推理阶段，NeoVerse展示了超越简单视频生成的强大能力。

为了获得更完整的场景表示，模型支持将多个时间戳的高斯聚合到一个统一的时间戳下。

为了避免动态物体在聚合过程中产生重影，NeoVerse引入了全局运动跟踪机制。

该机制通过计算全局级别的可见性加权最大速度幅值，智能地将场景中的高斯原语划分为静态集和动态集。

对于静态背景，模型会在整个视频序列中进行聚合，从而获得极其稠密和完整的环境描述。

对于动态物体，聚合范围则被限制在邻近的几帧内，以防止运动漂移带来的误差。

这种动静分离的策略，使得模型在处理复杂动态场景时，既能保持背景的稳定性，又能精准捕捉前景的运动细节。

量化实验结果证实了NeoVerse的卓越性能。

在静态场景重建基准测试中，NeoVerse在AnySplat等强力竞争对手面前依然取得了SOTA成绩。

在Scannet++数据集上，其PSNR达到了25.34，显著优于AnySplat的22.79。

在动态场景重建方面，即便面对DyCheck这样的挑战性数据集，NeoVerse也展现出了压倒性的优势，PSNR指标比4DGT高出了1.62dB。

这种高保真的4D表征能力直接转化为丰富多样的下游应用。

NeoVerse不仅能生成遵循精确相机轨迹的新视角视频，还能利用平滑的相机轨迹实现视频稳像。

由于高斯表征本身支持任意分辨率渲染，模型还能在保持外观信息的同时，通过高分辨率生成实现视频超分。

此外，借助3D流预测，模型能够关联连续帧之间的高斯原语，实现无需额外训练的3D目标跟踪。

在视频编辑任务中，通过结合二进制掩码和文本条件，NeoVerse可以精确地修改视频中的特定对象，例如将白车变为红车，或将茶壶变为透明材质。

这种多功能性证明了其作为一个通用4D世界模型的巨大潜力。

与需要特定数据微调的专用模型不同，NeoVerse展示了一种通过扩大数据规模和改进训练策略来实现通用智能的可行路径。

NeoVerse通过精巧的架构设计和逆向思维的训练策略，成功将杂乱无章的互联网视频转化为构建高质量4D世界的燃料，让每个人都能仅凭一部手机拍摄的图片或视频，触碰到数字孪生的未来。

参考资料：

https://arxiv.org/pdf/2601.00393

https://neoverse-4d.github.io/

https://github.com/IamCreateAI/NeoVerse

4D通用世界模型！中科院NeoVerse用百万单目视频直接构建

摆脱离线束缚的实时4D重建架构

模拟成像退化以提升生成鲁棒性

动态感知的推理与全能应用表现

从600万到3000万：揭秘中小商家的增长密码

Java之构造方法

想 2026 转行网络安全？前景、工作内容及薪资水平一次说透

生成引擎优化(GEO)在内容创作与用户体验提升方面的综合应用与效益分析

【干货】2026年AI大模型趋势预测：AI智能体将如何改变编程开发？附ChatGPT+DeepSeek学习资料，小白程序员必看！

（124页PPT）IBM咨询制造业集团供应链管理成熟度评估模型及集成计划流程框架（附下载方式）