news 2026/4/15 21:05:37

R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation

这篇论文介绍了 R3D2,一个轻量级、一步式 (one-step) 的 diffusion model,旨在解决自动驾驶 (autonomous driving, AD) 仿真中逼真插入完整 3D 资产的挑战。传统的仿真平台虽然可控,但扩展资源消耗大,且存在与真实世界的领域差距 (domain gap)。神经重建方法如 3D Gaussian Splatting (3DGS) 为创建逼真的数字孪生提供了可扩展方案,但由于其基于逐场景优化的方法,往往导致动态对象模型不完整,并集成了光照效果,限制了动态操作和重用性。
R3D2 的核心方法是训练一个模型来为插入的 3D 资产生成 plausible 的渲染效果,例如阴影和一致的光照,从而实现逼真的实时插入。这通过在一个新的数据集 R3D3 上进行训练来实现。R3D3 数据集的构建流程包括三个主要阶段:资产生成 (asset generation)、场景重建与资产重新插入 (scene reconstruction and asset re-insertion) 和数据整理 (data curation)。

资产生成: 使用 image-conditioned 3D generative model Amodal3R [44] 从 in-the-wild AD 数据中生成完整的 3DGS 对象资产。Amodal3R 输入包括对象中心的图像裁剪、2D segmentation mask 和 foreground occlusion mask。foreground occlusion mask 通过使用 pix2gestalt [23] 估计 amodal segmentation mask 并与原始 segmentation mask 相减(以及腐蚀操作)获得。生成的资产表示为一组 3D Gaussian primitives。
场景重建与资产重新插入: 使用 state-of-the-art 的神经重建方法 SplatAD [9] 重建约 300 个 Waymo Open Dataset (WOD) [37] 序列的虚拟环境。SplatAD 将场景分解为 static background 和 dynamic actors,各由 Gaussian primitives 表示。论文对 SplatAD 进行了微小修改,禁用了 feature splatting 和 CNN 解码器,直接渲染 RGB 颜色,以便于跨场景传输对象。为了构建训练对 ($I_{input}, I_{target}$),首先移除原始场景中的动态 actor 及其对应的 Gaussian primitives(这也移除了它们投射的阴影)。然后,在移除的位置和姿态 (pose) 插入生成的 3DGS 资产。渲染修改后的场景(static background + 新的 3DGS 资产)得到输入图像 $I_{input}$。原始图像作为目标图像 $I_{target}$。$I_{input}$ 包含几何正确的资产,但缺乏逼真的环境集成效果(如阴影)。
数据整理: 由于 Amodal3R 生成的资产可能存在不完美,对生成的资产进行两阶段过滤:首先自动过滤 3D 形状与原始 3D bounding box 尺寸显著偏离的资产;然后进行手动检查,移除不逼真或有渲染瑕疵的资产,最终得到 5071 个高质量资产。这些资产及其重新插入场景构成 R3D3 数据集。

R3D2 模型被形式化为一个图像编辑任务。它是一个 one-step diffusion model,基于蒸馏 (distilled) 的 SD-Turbo [33] 构建,去除文本条件,以 image-to-image 方式工作。与 SDEdit [20] 不同,它从 degraded 的 $I_{input}$ 直接执行一个 backward diffusion step,不额外添加噪声,以更好地保留输入信息。模型架构包含 UNet 和 VAE。为了实时推理速度,使用了蒸馏版本的 VAE [2],并通过从 VAE encoder 到 decoder 添加 skip connections (zero-initialized zero convolutions) 来保留输入图像细节,遵循 [24, 17, 43]。训练采用 end-to-end 方式,固定 VAE encoder,UNet 和 VAE Decoder 使用 LoRA [12] 进行 fine-tuning,skip connections 从零开始训练。训练分辨率为 1080x1920。损失函数结合了 perceptual LPIPS [51] loss 和 Gram matrix [28] loss:

​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​

其中,

​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​​​​​​​​
实验评估表明 R3D2 显著提升了插入资产的逼真度。在 same-scene re-insertion 任务中(资产生成自同一场景并插入回原位),与 Naive Insertion 相比,R3D2 大幅缩小了与 Original Reconstruction (逐场景过拟合) 的 realism 差距,表现在 PSNR, SSIM, LPIPS, CLIP IS, DINO IS 等指标上。定性结果展示了 R3D2 能隐式推断全局光照并生成逼真的阴影和反射。在资产操作 (asset manipulation) 实验中(旋转资产),Original Reconstruction 质量随旋转迅速下降,而 Naive Insertion (+ R3D2) 保持更稳定的质量,R3D2 显著提高了 Naive Insertion 的 realism。R3D2 也成功泛化到 foreign asset insertion 任务,包括 cross-scene (WOD 其他序列)、cross-dataset (PandaSet [46] 重建对象) 和 text-to-3D (TRELLIS [45] 生成对象) 资产。在这些任务中,R3D2 插入效果的 FID 和 FID-A 分数与 same-scene 任务相似,远优于 Naive Insertion。模型效率高,使用蒸馏 VAE 的 R3D2 在 RTX 5090 上可达 13.36 FPS (1080x1920),支持实时应用,比使用原始 VAE 的 R3D2-BIG 快 3.3 倍,而感知和特征层面的相似性指标仅略有下降。
R3D2 实现了逼真的实时渲染效果,无需依赖计算昂贵的 PBR 或 ray tracing。该方法为 AD 验证提供了创建更具多样性、可控性和高保真度仿真环境的实用步骤。
论文的贡献总结为:1) 提出了轻量级的 diffusion model R3D2,能够实时生成渲染效果,大幅提升插入资产的逼真度。2) 展示了强大的资产操作能力,并泛化到 text-to-3D 生成和跨数据集资产无缝插入等新应用。3) 构建并发布了用于训练 R3D2 的新数据集 R3D3,包含 3D 资产和替换了原 actor 的图像对。
局限性包括数据集创建过程可能引入的资产对齐误差(导致输出偶尔修改几何或位置)以及方法不处理时间一致性,应用于视频帧或多摄像头设置时可能导致闪烁或不一致。未来的工作可以基于视频模型来解决时间和多视角一致性问题。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 11:32:03

语音识别神器:Qwen3-ASR-1.7B镜像快速上手教程

语音识别神器:Qwen3-ASR-1.7B镜像快速上手教程 你有没有过这样的经历?录完一段会议录音,想转成文字整理纪要,结果本地软件识别错了一半——“项目启动”听成“项目启动(谐音:启冻)”&#xff0…

作者头像 李华
网站建设 2026/4/14 15:55:17

STM32 USART_GetITStatus函数原理与中断安全机制解析

1. USART_GetITStatus 函数的工程本质与设计逻辑 在 STM32F103 的串口通信开发中, USART_GetITStatus 是一个被高频调用但常被浅层使用的库函数。它表面看仅返回一个布尔值(0 或 1),但其内部逻辑承载了 STM32 中断机制与状态机协同工作的核心范式。理解它,不是为了背诵…

作者头像 李华
网站建设 2026/4/15 12:21:51

3个核心价值的数字资源管理全流程解决方案

3个核心价值的数字资源管理全流程解决方案 【免费下载链接】downkyi 哔哩下载姬downkyi,哔哩哔哩网站视频下载工具,支持批量下载,支持8K、HDR、杜比视界,提供工具箱(音视频提取、去水印等)。 项目地址: h…

作者头像 李华
网站建设 2026/4/15 9:14:56

STM32F407+WM8978嵌入式WAV播放器设计与实现

1. 音乐播放器系统架构与硬件基础 在嵌入式音频系统中,将数字音频文件转化为可听声波的过程远非简单的数据搬运。它是一套精密协同的软硬件流水线:从SD卡中读取WAV文件,经由CPU解码解析,再通过DMA通道持续喂给音频编解码器(CODEC),最终由模拟电路驱动扬声器或耳机发声。…

作者头像 李华
网站建设 2026/4/6 4:17:53

Vue Office文档预览组件:一站式多格式文档预览方案

Vue Office文档预览组件:一站式多格式文档预览方案 【免费下载链接】vue-office 项目地址: https://gitcode.com/gh_mirrors/vu/vue-office 在现代Web应用开发中,实现Office文档的在线预览已成为企业级应用的常见需求。Vue Office文档预览组件作…

作者头像 李华