CVPR‘26 Highlight 开源 | 清华SimRecon：高保真组合式场景重建，打通「感知-生成-模拟」全流程-编程阁

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

本文经作者授权发布 | 来源：3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) ！星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎加入！

太长不看版：本文提出了一种全新的组合式场景重建框架，名为SimRecon，它采用了一套“感知-生成-模拟”流程，并配备了专门的衔接模块，以确保在视觉表现力和物理合理性方面达到高水平。

论文信息

标题：SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

作者：Chong Xia, Kai Zhu, Zizhuo Wang, Fangfu Liu, Zhizheng Zhang, Yueqi Duan

机构：Tsinghua University、Galbot

原文链接：https://arxiv.org/abs/2603.02133

代码链接：https://xiac20.github.io/SimRecon/

导读

基于组合式的场景重建方法旨在从真实世界视频中提取以物体为中心的信息，而非完整的场景图像。这种方法非常适合用于模拟和交互应用。传统的重建方法主要关注视觉效果，但在处理真实世界场景时，其泛化能力有限。在本文中，我们提出了SimRecon框架，该框架实现了“感知-生成-模拟”这一流程：首先从视频中提取场景级的语义信息，然后生成单个物体图像，最后将这些元素整合到模拟器中。不过，如果直接将这三个步骤串联起来，会导致生成出的图像在视觉上不真实，且整个场景在物理上也不符合逻辑，尤其是在处理复杂场景时这个问题更为突出。因此，我们设计了两个过渡模块来解决这些问题。具体来说，在“感知”到“生成”的转换过程中，为确保视觉效果的真实性，我们采用了“主动视角优化”技术，该技术能在三维空间中寻找最佳的投影图像，作为生成单个物体的依据。而在“生成”到“模拟”的转换过程中，为了保证场景的物理合理性，我们设计了“场景图合成器”，该工具能够引导模拟器按照真实的构建方式来生成场景。通过在ScanNet数据集上的大量实验，我们证明了该方法比现有的最先进技术更具优越性。

效果展示

构成式3D重建的定性比较。我们展示了最终重建场景的定性可视化效果。对于单视角设置，我们以目标视点处的3D表现图为输入，用于这些方法的渲染。

引言

从多视角图像进行三维场景重建是计算机视觉领域的一项长期挑战。神经表示方面的最新进展使得三维几何重建和新视角渲染取得了显著进步。然而，这些方法是对场景进行整体表示：尽管它们实现了令人印象深刻的视觉保真度，但由于缺乏完整的物体几何结构和明确的物体边界，它们从根本上不适合用于模拟和交互。与此同时，当代研究通过以下方式创建三维室内模拟器：在模拟环境中手动放置资产，在扫描过程中使用专门的捕捉硬件并进行大量手动标注，或通过基于规则的方法或学习的布局生成模型采用程序化生成。这些数据集极大地推进了具身智能研究，特别是在具身推理、导航和操作方面。尽管如此，这些场景创建方法仍然依赖于重建良好的扫描数据和大量的人工参与，并且存在与真实世界相悖的人工布局问题。

一个新的研究分支开始探索仅从野外多视角图像进行组合式三维重建，但这些方法存在几个关键限制，阻碍了这一目标的实现。首先，这些方法通常依赖从输入图像或用于单物体生成的三维表示中进行启发式视角选择，这难以针对小型、大型或被遮挡物体生成完整且合理的几何结构。其次，它们的最终结果仍然是一种视觉表示，而非可用于模拟的场景，导致了表现为物理不合理的"真实到模拟"的鸿沟。第三，它们通常依赖专门为语义重建和物体生成设计的方法，这些方法与它们自身的流程紧密耦合，无法轻松利用这些领域的先进方法。

主要贡献

在本文中，我们提出了SimRecon，一个通过统一以物体为中心的空间表示来实现"感知-生成-模拟"流程的框架，旨在将杂乱的视频输入转换为可用于模拟的组合式三维场景。我们的框架首先从视频输入进行语义重建，以恢复三维场景并区分单个物体，然后进行单物体生成以补全每个实例，最后将这些资产组合在物理模拟器中。主要的挑战在于生成资产的视觉保真度低和最终构建场景的物理不合理性，这些源于三个阶段之间的衔接部分。基于这一观察，我们主要专注于设计桥接模块来解决这些瓶颈问题：实现单个物体的完整几何结构和外观，并确保它们在物理上合理的放置。这种桥接模块的设计范式也赋予了我们的框架固有的可扩展性。

具体来说，为了弥合从感知到生成的鸿沟，这需要将非结构化和杂乱的三维几何表示转换为生成模型的有效图像条件，我们引入了主动视点优化，它在三维场景中智能搜索具有最大信息增益的最优视角作为最佳视点条件。这种方法超越了启发式视角选择，后者在复杂场景中常常产生被遮挡的视角，导致生成资产变形。此外，为了确保在模拟器中构建合理的场景，我们引入了场景图合成器，它从多个不完整的观测中逐步提取全局场景图。该场景图主要对物体之间的支撑和附着关系进行建模，作为后续分层物理组装的天然构建指导，以确保物理合理性。在ScanNet数据集上的大量实验证明了我们的方法在复杂场景重建保真度和模拟器中的物理合理性方面优于现有最先进的方法。

方法

我们的方法SimRecon的整体框架。我们提出了一套“感知-生成-模拟”流程，辅以以对象为中心的场景表示方法旨在从杂乱的视频输入中实现构成式3D场景重建。在此图中，我们以背包为例，通过直观的视觉化展示来介绍我们的两个核心模块:主动视点优化(AVO)和场景图合成器(SGS)。图中我们展示了语义层面的图形以增强清晰度，而我们的框架则在实例层面运行。

实验结果

表1展示了组合式三维重建任务的定量和定性结果。我们观察到，像Gen3DSR和SceneGen这样的单视图方法难以重建具有准确空间位置的忠实物体几何结构，显示出对真实图像泛化能力的局限性。DPRecon采用每个物体的有符号距离场作为强大的三维生成条件，因此遭受源于严重不完整三维结构的变形伪影问题，并且还需要显著的推理时间。InstaScene利用启发式视图采样策略将语义三维高斯作为条件，常常产生严重遮挡的投影图像，因此无法生成准确的几何结构和外观。相比之下，我们的方法采用主动视点优化，通过最大化三维信息增益来智能搜索最优投影，从而促进生成具有高几何和视觉保真度的资产。此外，我们的框架利用合成的场景图来指导基于物理的资产组装，确保最终配置的物理合理性，不会出现悬浮或穿透的情况。

总结 & 未来工作

在本文中，我们提出了SimRecon，一个"感知-生成-模拟"流程，旨在从杂乱的现实世界视频中创建以物体为中心、可用于模拟的场景。我们的框架解决了在简单流程组合中导致视觉保真度低和物理不合理的关键阶段转换障碍。我们引入了两个关键的桥接模块：主动视点优化，它主动搜索最优投影以确保高保真度的生成条件；以及场景图合成器，它指导符合真实构建原理的构建性组装，从而从一开始就确保物理合理性。在ScanNet数据集上的实验验证了我们的方法在重建质量和物理合理性方面均实现了优越的性能。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉方向论文辅导来啦！可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。