顶刊TPAMI 2026！生成式世界模型综述重磅发布-编程阁

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【世界模型】技术交流群

添加微信号：CVer2233，小助手拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用！发论文/搞科研/涨薪，强烈推荐！

港科广 × 中山大学 × 港中文 × 清华 × 港科大 × 博世联合发布 | TPAMI 综述

让机器看懂世界，还不够——我们还要让机器生成一个“能运动、有几何、逼近真实的”的世界。

从 Sora 根据文本提示生成高度逼真的视频，到 Nano Banana、Veo、即梦等模型接连引发广泛关注；从 3D 资产的自动生成，到具备动态时序特性的 4D 场景构建——近两年，多模态生成模型已将“世界模拟器”（World Simulator）这一概念从科幻愿景推进至工程化的前夜。

然而，值得探讨的问题是：2D 图像、视频、3D 与 4D 生成看似分属不同领域，它们之间存在怎样的内在关联？为何 4D 生成面临尤为突出的技术困难？下一阶段的研究又应聚焦于哪些关键方向？

近日，来自香港科技大学（广州）、中山大学、香港中文大学、清华大学、香港科技大学、博世的联合研究团队发布了一篇综述 ——《Simulating the Real World: A Unified Survey of Multimodal Generative Models》，首次把 2D、视频、3D、4D 放进同一个维度生长 (dimensional growth) 的框架里看。该综述共引用325篇文献（以2023–2025年为主，含少数2022年前文献）。

论文标题：Simulating the Real World: A Unified Survey of Multimodal Generative Models

作者团队：Yuqi Hu*, Longguang Wang*, Xian Liu*, Ling-Hao Chen*, Yuwei Guo*, Yukai Shi*, Ce Liu*, Anyi Rao, Zeyu Wang, Hui Xiong †（*同等贡献，† 通讯作者）

合作单位：HKUST(GZ) · 中山大学 · CUHK · 清华大学 · HKUST · Bosch (China)

开源项目：

https://github.com/ALEEEHU/World-Simulator

论文：https://arxiv.org/abs/2503.04641

▲ 图 1：从 2D 图像 → 视频 → 3D → 4D，一条“数据维度不断生长”的演进路线图。

图 2：本工作 GitHub 仓库首页及资源汇总表截图。通过整理论文、代码等关键信息，并设置“Getting Started with Key Concepts”引导，为初学者提供一站式、新手友好的领域入门入口。

01 | 一个观点：所有生成模型，都是对「外观 + 几何 + 动力学」的不同切片

真实世界之所以“真实”，靠三样东西：

· 外观 (Appearance)：颜色、纹理、光照——我们看到的一切；

· 几何 (Geometry)：三维形状、空间结构——“它长什么样、占多大”；

· 动力学 (Dynamics)：随时间变化的运动和物理——“它怎么动、怎么变”。

作者指出，当下热门的四大生成赛道，本质上就是对这三要素不同子集的建模：

2D 图像生成 = 外观；

视频生成 = 外观 + 动力学；

3D 生成 = 外观 + 几何；

4D 生成 = 外观 + 几何 + 动力学（终极目标）。

换句话说，4D 不是某个“新任务”，而是视频与 3D 两条支线在更高维度上的合流。这也是综述的核心判断：各模态不是平行的孤岛，而是维度递进的同一棵进化树。

▲ 图 3：2D 是所有高维生成的“地基”。3D 是对 2D 的空间抬升、视频是对 2D 的时间延展，4D 则要求两种一致性同时成立。

02 | 一条脉络：从 2D 到 4D，模型在“多解决一个问题”

1) 2D 图像生成：解决「看起来真」

从 GAN 到 Stable Diffusion、再到 DiT 架构，图像生成是整条链路的底座。它贡献了两样最珍贵的东西：海量的图文对数据和强大的语义先验——这也是为什么后面的所有高维生成，几乎都绕不开“蒸馏 2D 先验”这件事。

2) 视频生成：给图像加上“时间轴”

视频的核心挑战是时序一致性：人物不能一帧一个脸，物体不能无故闪烁。Sora、Veo、可灵、Wan 等大模型通过时空 DiT、3D VAE、长序列扩散等技术，把图像生成的能力沿时间维扩展，并开始显现出一点“物理直觉”。

3) 3D 生成：给图像加上“几何深度”

从 NeRF、3D Gaussian Splatting 到 DreamFusion、ProlificDreamer 一系列 Score Distillation 方法，3D 生成走的路线是：把 2D 扩散模型当“多视角监督器”，反复拉取不同视角的梯度，直到一个三维资产在任何角度看都自洽。

4) 4D 生成：同时要求“时间一致 + 空间一致”

这是综述最想讲清楚的部分。4D 生成 = 会动的 3D 场景。它要同时满足两件事：不同时刻看起来是同一个物体（时间一致），不同视角看起来是同一个物体（空间一致）。目前主流方案大致分四条路径：

· 2D → 3D：把 2D 先验空间抬升为几何一致的 3D；

· 2D → Video：把静态特征沿时间膨胀出运动；

· Video → 4D：从动态视频重建稳定的 4D 结构；

· 3D → 4D：给静态几何加上形变与动画。

四条路径，本质都是在用各种方式“借”低维模型的能力去补高维数据的缺——因为高质量 4D 数据，几乎没有。

03 | 三个发现：下一代「世界模拟器」可能长什么样？

这正是本篇综述最具理论深度的贡献所在。作者并未止步于对现有研究的简单归纳与分类，而是立足于“维度生长”（dimensional growth）这一框架，系统提出了三项关于下一代生成系统具有重要指导意义的论断。这些论断不仅直指当前研究中的关键瓶颈，也明确了若干具备操作性的未来研究方向。

发现一：2D 基础模型，将是高维生成的“语义引擎”

先看一组让人绝望的数字对比：LAION-5B 这样的 2D 图文数据集，量级是 50 亿；而 3D 领域最大的 Objaverse-XL，也只有约 1000 万级别；到了 4D，高质量、带标注、带动作一致性的数据，几乎是稀缺品。换句话说，高维数据和 2D 数据之间，隔着好几个数量级的鸿沟——而且这条鸿沟短期内几乎不可能靠“多采数据”抹平。

这就带出了一个非常现实的问题：3D/4D 模型要不要自己学“什么是猫、什么是机械臂、什么是赛博朋克风”？论文的回答非常直接——不要。语义、风格、多样性、细粒度可控性这些能力，2D 基础模型已经做得足够好，高维模型不应该再重造轮子，而应把这些能力“外包”给 2D。

具体怎么做？综述给出的路径是：把 2D 基础模型当作一个可微的先验分布，高维生成只负责一件事——lifting（抬升）：把这些 2D 分布映射到多视角一致的 3D 表征，或者时序一致的 4D 表征。从 DreamFusion 的 SDS，到 ProlificDreamer 的 VSD，再到各种基于视频扩散做多视角监督的工作，本质上都是这条路径的不同实现。

总结：未来谁在 2D 先验上领先，谁就天然地在 3D/4D 上领先。所以真正决定 4D 天花板的，可能不是 4D 本身，而是底下那层 2D 基础模型。

发现二：高维一致性，会反过来“修复”低维生成

大多数人习惯把维度关系理解成单向的——2D 帮助 3D、3D 帮助 4D。但综述指出了一个更有意思的反向通道：高维结构约束，可以回传去治疗低维生成的顽疾。

最典型的场景就是视频生成。现在的视频大模型，即使单帧画质已经非常惊艳，一旦拉到 10 秒以上，依然会出现三大老大难问题：人物身份漂移（前后不是同一个人）、物体闪烁/忽隐忽现、运动轨迹违反物理。这些问题为什么难？因为纯 2D/视频的训练信号里，本就缺少“同一个三维身份在时间中该如何演化”的监督。

而 3D/4D 天然带这些约束：多视角下必须是同一物体（身份一致）、运动必须服从碰撞与形变的物理规律（动力学一致）、几何在时间上必须平滑对应（时空对应）。作者指出：这些约束完全可以作为正则项，反向注入到视频扩散模型里去。未来我们很可能看到这样的训练范式：用 4D 先验来监督视频模型的时空一致性，用 3D 先验来监督多视角生成的几何合理性。

总结：不是高维在“消费”低维，而是高维和低维互相反哺。真正带物理感的视频，最终可能是被 4D 教出来的。

发现三：终局是一个「统一时空世界模型」，而不是四个分家的模型

当前技术图谱在某种程度上仍呈现“各自为战”的局面：图像生成领域聚焦于DiT架构，视频生成领域侧重于长上下文建模，三维（3D）生成领域致力于高斯点阵（Gaussian Splatting）方法，而四维（4D）生成领域则在此基础上引入运动场。这四个方向分别采用不同的模型架构与评测指标。

综述作者指出，这种分立状态是阶段性的，并非终极形态。从物理世界的视角来看，空间重建（2D→3D）与时间演化（2D→视频）本质上是对同一世界状态的两种投影：前者对应视角维度的切片，后者对应时间维度的切片。一个真正的世界模拟器应当具备同时输出这两种切片的能力，而非由两个独立模型分别处理后，再通过拼接方式加以融合。

这也意味着，下一代模型架构可能会在三个层面出现显著变化：

· 共享潜空间：图像、视频、3D、4D 使用同一套 latent 表征，让知识可以在不同维度间自由迁移；

· 显式对应关系：把几何对应、时间对应作为一等公民写进模型结构，而不是靠数据“自己学出来”；

· 联合条件化：文本、相机轨迹、物理参数、动作序列等异构条件能够在同一个骨干里被统一消费。

NVIDIA Cosmos、Google Genie、以及近期一批打着“world model / world foundation model”旗号的工作，正是沿着这个方向在探索。可以预见：未来一两年，生成式世界模型（Generative World Model）将取代“多模态生成”，成为这个领域新的叙事主线。

总结：四个生成方向最终都会合流到一个统一骨干——外观、几何、动力学，被压进同一种时空表征。谁先走到这一步，谁就握住了通往 AGI 的一张关键门票。

· 论文项目主页 / 持续更新：https://github.com/ALEEEHU/World-Simulator

· arXiv 论文版本：Simulating the Real World: A Unified Survey of Multimodal Generative Models

https://arxiv.org/abs/2503.04641

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载566页课件PPT！大家赶紧学起来！

CVPR 2026 所有论文和代码下载

在CVer公众号后台回复：CVPR2026，即可下载CVPR 2026 所有论文和代码！

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群 CVer计算机视觉（知识星球）人数破万！如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料，一定要扫描下方二维码，加入CVer知识星球！最强助力你的科研和工作！ ▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号 整理不易，请点赞和在看

顶刊TPAMI 2026！生成式世界模型综述重磅发布

01 | 一个观点：所有生成模型，都是对「外观 + 几何 + 动力学」的不同切片

02 | 一条脉络：从 2D 到 4D，模型在“多解决一个问题”

1) 2D 图像生成：解决「看起来真」

2) 视频生成：给图像加上“时间轴”

3) 3D 生成：给图像加上“几何深度”

4) 4D 生成：同时要求“时间一致 + 空间一致”

03 | 三个发现：下一代「世界模拟器」可能长什么样？

发现一：2D 基础模型，将是高维生成的“语义引擎”

发现二：高维一致性，会反过来“修复”低维生成

发现三：终局是一个「统一时空世界模型」，而不是四个分家的模型

iOS激活锁终极绕过：5步解锁二手iPhone完整方案

Google DeepMind 重大更新 Gemini API File Search：多模态、元数据过滤与页码引用齐上阵

ChatGPT写论文被判AI怎么办？降AI率完整应对攻略+工具推荐！

Gemini字幕准确率从76.3%→94.1%：我们逆向分析了Google 127个内部测试用例，提炼出这7条语音预处理黄金规则

如何一次性解决Windows系统“应用程序无法启动“的终极指南

ChatReviewer：基于大语言模型的智能代码审查助手实战指南