news 2026/5/11 20:07:31

顶刊TPAMI 2026!生成式世界模型综述重磅发布

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
顶刊TPAMI 2026!生成式世界模型综述重磅发布

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【世界模型】技术交流群

添加微信号:CVer2233,小助手拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!

港科广 × 中山大学 × 港中文 × 清华 × 港科大 × 博世 联合发布 | TPAMI 综述

让机器看懂世界,还不够——我们还要让机器 生成一个“能运动、有几何、逼近真实的”的世界。

从 Sora 根据文本提示生成高度逼真的视频,到 Nano Banana、Veo、即梦等模型接连引发广泛关注;从 3D 资产的自动生成,到具备动态时序特性的 4D 场景构建——近两年,多模态生成模型已将“世界模拟器”(World Simulator)这一概念从科幻愿景推进至工程化的前夜。

然而,值得探讨的问题是:2D 图像、视频、3D 与 4D 生成看似分属不同领域,它们之间存在怎样的内在关联?为何 4D 生成面临尤为突出的技术困难?下一阶段的研究又应聚焦于哪些关键方向?

近日,来自香港科技大学(广州)、中山大学、香港中文大学、清华大学、香港科技大学、博世 的联合研究团队发布了一篇综述 ——《Simulating the Real World: A Unified Survey of Multimodal Generative Models》,首次把 2D、视频、3D、4D 放进 同一个维度生长 (dimensional growth) 的框架里看。该综述共引用325篇文献(以2023–2025年为主,含少数2022年前文献)。

论文标题:Simulating the Real World: A Unified Survey of Multimodal Generative Models

作者团队:Yuqi Hu*, Longguang Wang*, Xian Liu*, Ling-Hao Chen*, Yuwei Guo*, Yukai Shi*, Ce Liu*, Anyi Rao, Zeyu Wang, Hui Xiong †(*同等贡献,† 通讯作者)

合作单位:HKUST(GZ) · 中山大学 · CUHK · 清华大学 · HKUST · Bosch (China)

开源项目:

https://github.com/ALEEEHU/World-Simulator

论文:https://arxiv.org/abs/2503.04641

▲ 图 1:从 2D 图像 → 视频 → 3D → 4D,一条“数据维度不断生长”的演进路线图。

图 2:本工作 GitHub 仓库首页及资源汇总表截图。通过整理论文、代码等关键信息,并设置“Getting Started with Key Concepts”引导,为初学者提供一站式、新手友好的领域入门入口。

01 | 一个观点:所有生成模型,都是对「外观 + 几何 + 动力学」的不同切片

真实世界之所以“真实”,靠三样东西:

· 外观 (Appearance):颜色、纹理、光照——我们看到的一切;

· 几何 (Geometry):三维形状、空间结构——“它长什么样、占多大”;

· 动力学 (Dynamics):随时间变化的运动和物理——“它怎么动、怎么变”。

作者指出,当下热门的四大生成赛道,本质上就是对这三要素不同子集的建模:

2D 图像生成 = 外观;

视频生成 = 外观 + 动力学;

3D 生成 = 外观 + 几何;

4D 生成 = 外观 + 几何 + 动力学(终极目标)。

换句话说,4D 不是某个“新任务”,而是视频与 3D 两条支线在更高维度上的合流。这也是综述的核心判断:各模态不是平行的孤岛,而是维度递进的同一棵进化树。

▲ 图 3:2D 是所有高维生成的“地基”。3D 是对 2D 的空间抬升、视频是对 2D 的时间延展,4D 则要求两种一致性同时成立。

02 | 一条脉络:从 2D 到 4D,模型在“多解决一个问题”

1) 2D 图像生成:解决「看起来真」

从 GAN 到 Stable Diffusion、再到 DiT 架构,图像生成是整条链路的底座。它贡献了两样最珍贵的东西:海量的图文对数据 和 强大的语义先验——这也是为什么后面的所有高维生成,几乎都绕不开“蒸馏 2D 先验”这件事。

2) 视频生成:给图像加上“时间轴”

视频的核心挑战是时序一致性:人物不能一帧一个脸,物体不能无故闪烁。Sora、Veo、可灵、Wan 等大模型通过时空 DiT、3D VAE、长序列扩散等技术,把图像生成的能力沿时间维扩展,并开始显现出一点“物理直觉”。

3) 3D 生成:给图像加上“几何深度”

从 NeRF、3D Gaussian Splatting 到 DreamFusion、ProlificDreamer 一系列 Score Distillation 方法,3D 生成走的路线是:把 2D 扩散模型当“多视角监督器”,反复拉取不同视角的梯度,直到一个三维资产在任何角度看都自洽。

4) 4D 生成:同时要求“时间一致 + 空间一致”

这是综述最想讲清楚的部分。4D 生成 = 会动的 3D 场景。它要同时满足两件事:不同时刻看起来是同一个物体(时间一致),不同视角看起来是同一个物体(空间一致)。目前主流方案大致分四条路径:

· 2D → 3D:把 2D 先验空间抬升为几何一致的 3D;

· 2D → Video:把静态特征沿时间膨胀出运动;

· Video → 4D:从动态视频重建稳定的 4D 结构;

· 3D → 4D:给静态几何加上形变与动画。

四条路径,本质都是在用各种方式“借”低维模型的能力去补高维数据的缺——因为高质量 4D 数据,几乎没有。

03 | 三个发现:下一代「世界模拟器」可能长什么样?

这正是本篇综述最具理论深度的贡献所在。作者并未止步于对现有研究的简单归纳与分类,而是立足于“维度生长”(dimensional growth)这一框架,系统提出了三项关于下一代生成系统具有重要指导意义的论断。这些论断不仅直指当前研究中的关键瓶颈,也明确了若干具备操作性的未来研究方向。

发现一:2D 基础模型,将是高维生成的“语义引擎”

先看一组让人绝望的数字对比:LAION-5B 这样的 2D 图文数据集,量级是 50 亿;而 3D 领域最大的 Objaverse-XL,也只有约 1000 万级别;到了 4D,高质量、带标注、带动作一致性的数据,几乎是稀缺品。换句话说,高维数据和 2D 数据之间,隔着好几个数量级的鸿沟——而且这条鸿沟短期内几乎不可能靠“多采数据”抹平。

这就带出了一个非常现实的问题:3D/4D 模型要不要自己学“什么是猫、什么是机械臂、什么是赛博朋克风”?论文的回答非常直接——不要。语义、风格、多样性、细粒度可控性这些能力,2D 基础模型已经做得足够好,高维模型不应该再重造轮子,而应把这些能力“外包”给 2D。

具体怎么做?综述给出的路径是:把 2D 基础模型当作一个可微的先验分布,高维生成只负责一件事——lifting(抬升):把这些 2D 分布映射到多视角一致的 3D 表征,或者时序一致的 4D 表征。从 DreamFusion 的 SDS,到 ProlificDreamer 的 VSD,再到各种基于视频扩散做多视角监督的工作,本质上都是这条路径的不同实现。

总结:未来谁在 2D 先验上领先,谁就天然地在 3D/4D 上领先。所以真正决定 4D 天花板的,可能不是 4D 本身,而是底下那层 2D 基础模型。

发现二:高维一致性,会反过来“修复”低维生成

大多数人习惯把维度关系理解成单向的——2D 帮助 3D、3D 帮助 4D。但综述指出了一个更有意思的反向通道:高维结构约束,可以回传去治疗低维生成的顽疾。

最典型的场景就是视频生成。现在的视频大模型,即使单帧画质已经非常惊艳,一旦拉到 10 秒以上,依然会出现三大老大难问题:人物身份漂移(前后不是同一个人)、物体闪烁/忽隐忽现、运动轨迹违反物理。这些问题为什么难?因为纯 2D/视频的训练信号里,本就缺少“同一个三维身份在时间中该如何演化”的监督。

而 3D/4D 天然带这些约束:多视角下必须是同一物体(身份一致)、运动必须服从碰撞与形变的物理规律(动力学一致)、几何在时间上必须平滑对应(时空对应)。作者指出:这些约束完全可以作为正则项,反向注入到视频扩散模型里去。未来我们很可能看到这样的训练范式:用 4D 先验来监督视频模型的时空一致性,用 3D 先验来监督多视角生成的几何合理性。

总结:不是高维在“消费”低维,而是高维和低维互相反哺。真正带物理感的视频,最终可能是被 4D 教出来的。

发现三:终局是一个「统一时空世界模型」,而不是四个分家的模型

当前技术图谱在某种程度上仍呈现“各自为战”的局面:图像生成领域聚焦于DiT架构,视频生成领域侧重于长上下文建模,三维(3D)生成领域致力于高斯点阵(Gaussian Splatting)方法,而四维(4D)生成领域则在此基础上引入运动场。这四个方向分别采用不同的模型架构与评测指标。

综述作者指出,这种分立状态是阶段性的,并非终极形态。从物理世界的视角来看,空间重建(2D→3D)与时间演化(2D→视频)本质上是对同一世界状态的两种投影:前者对应视角维度的切片,后者对应时间维度的切片。一个真正的世界模拟器应当具备同时输出这两种切片的能力,而非由两个独立模型分别处理后,再通过拼接方式加以融合。

这也意味着,下一代模型架构可能会在三个层面出现显著变化:

· 共享潜空间:图像、视频、3D、4D 使用同一套 latent 表征,让知识可以在不同维度间自由迁移;

· 显式对应关系:把几何对应、时间对应作为一等公民写进模型结构,而不是靠数据“自己学出来”;

· 联合条件化:文本、相机轨迹、物理参数、动作序列等异构条件能够在同一个骨干里被统一消费。

NVIDIA Cosmos、Google Genie、以及近期一批打着“world model / world foundation model”旗号的工作,正是沿着这个方向在探索。可以预见:未来一两年,生成式世界模型(Generative World Model)将取代“多模态生成”,成为这个领域新的叙事主线。

总结:四个生成方向最终都会合流到一个统一骨干——外观、几何、动力学,被压进同一种时空表征。谁先走到这一步,谁就握住了通往 AGI 的一张关键门票。

· 论文项目主页 / 持续更新:https://github.com/ALEEEHU/World-Simulator

· arXiv 论文版本:Simulating the Real World: A Unified Survey of Multimodal Generative Models

https://arxiv.org/abs/2503.04641

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载566页课件PPT!大家赶紧学起来!

CVPR 2026 所有论文和代码下载

在CVer公众号后台回复:CVPR2026,即可下载CVPR 2026 所有论文和代码!

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/11 20:06:48

iOS激活锁终极绕过:5步解锁二手iPhone完整方案

iOS激活锁终极绕过:5步解锁二手iPhone完整方案 【免费下载链接】applera1n icloud bypass for ios 15-16 项目地址: https://gitcode.com/gh_mirrors/ap/applera1n 你是否曾遇到过这样的尴尬:花了不少钱购买的二手iPhone或iPad,开机后…

作者头像 李华
网站建设 2026/5/11 20:06:12

ChatGPT写论文被判AI怎么办?降AI率完整应对攻略+工具推荐!

ChatGPT写论文被判AI怎么办?降AI率完整应对攻略工具推荐! ChatGPT 是 2022 年起最早被广泛使用的大模型,现在依然是不少留学生、研究生写英文论文/中文论文的首选。但它写出来的论文在 AIGC 检测平台(Turnitin、知网英文模块、维普…

作者头像 李华
网站建设 2026/5/11 20:05:55

Gemini字幕准确率从76.3%→94.1%:我们逆向分析了Google 127个内部测试用例,提炼出这7条语音预处理黄金规则

更多请点击: https://intelliparadigm.com 第一章:Gemini字幕准确率跃升94.1%的核心洞察 Google近期在多模态语音-文本对齐任务中对Gemini Pro 1.5模型进行了专项优化,重点重构了音频特征编码器与字幕生成解码器之间的跨模态注意力机制。实…

作者头像 李华
网站建设 2026/5/11 20:00:08

如何一次性解决Windows系统“应用程序无法启动“的终极指南

如何一次性解决Windows系统"应用程序无法启动"的终极指南 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否曾经遇到过这样的情况:下载…

作者头像 李华
网站建设 2026/5/11 19:59:41

ChatReviewer:基于大语言模型的智能代码审查助手实战指南

1. 项目概述:当代码审查遇上AI助手 在软件开发团队里,代码审查(Code Review)是保证代码质量、促进知识共享、统一编码规范的关键环节。但现实情况往往是,资深工程师时间宝贵,新人提交的代码量大且细节繁杂…

作者头像 李华