ICLR 2026 | 复旦上交上科等提出Flash-Mono：10倍加速！单目高斯SLAM首次突破实时瓶颈-编程阁

击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

作者：张子程(授权发布) | 编辑：3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) ！星球内有20多门3D视觉系统视频课程、300+场顶会讲解、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎加入！

导读

在机器人感知的世界里，"看得快"和"建得好"从来是一对不可兼得的矛盾。

现有的单目高斯SLAM方法虽然能用一颗RGB摄像头重建出逼真的三维场景，但它们有一个致命的瓶颈——每一帧都要从零训练高斯，速度被死死卡在1 FPS以下。这就好比让一个画家每画一幅画都要从磨颜料开始，无论多有天赋，也快不起来。

更要命的是，单帧深度估计天生没有统一的尺度，帧与帧之间的几何"各说各话"，累积下来就是严重的漂移——地图越长越歪。

这一次，复旦大学、上海科技大学、上海交通大学联合提出了Flash-Mono——一个彻底颠覆传统范式的单目高斯SLAM系统。它用一个循环前馈大模型直接预测相机位姿和每像素的高斯属性，将"从零训练"变为"预测+精调"，一举实现了10倍以上的速度提升，首次让单目GS-SLAM迈入真正的实时（10+ FPS）时代。不仅如此，它还创造性地利用隐状态作为子地图描述符来实现回环检测，通过Sim(3)全局优化彻底消除累积漂移，在跟踪精度和建图质量上全面碾压现有方法。

该工作已被ICLR 2026接收。

Flash-Mono在复杂多房间场景中的重建效果与各项指标雷达图对比。右侧雷达图展示了渲染质量（PSNR、SSIM、LPIPS）和轨迹跟踪精度（ATE），Flash-Mono在各维度上全面领先，同时速度提升10倍。

论文出处：ICLR 2026
论文标题：Flash-Mono: Feed-Forward Accelerated Gaussian Splatting Monocular SLAM
论文作者：Zicheng Zhang, Ke Wu, Xiangting Meng, Keyu Liu, Jieru Zhao, Wenchao Ding
作者单位：复旦大学、上海科技大学、上海交通大学
项目主页：https://victkk.github.io/flash-mono

1 — 为什么现有方法这么慢？一个范式级的瓶颈

要理解Flash-Mono的突破性，我们首先要搞清楚：为什么当前最好的单目GS-SLAM方法连1 FPS都跑不到？

答案藏在一个词里：Train-from-Scratch（从零训练）。

现有方法如MonoGS、DepthGS、S3PO-GS等，每来一帧新图像，都需要：随机初始化高斯属性 → 渲染 → 计算loss → 反向传播 → 更新参数，重复数百次。一次迭代大约20ms，一帧下来就需要将近一秒。这还没算跟踪、回环等开销。

更棘手的是，这些方法依赖单帧深度估计网络来提供几何先验，但单目深度本质上是尺度不一致的——第一帧预测的"1米"和第十帧预测的"1米"可能差了好几倍。随着序列变长，漂移像滚雪球一样越积越大，最终地图面目全非。

Flash-Mono的核心洞察是：与其让高斯从零学习，不如用一个强大的前馈模型直接预测出来，然后只做轻量化精调。这就是从"Train-from-Scratch"到"Predict-and-Refine"的范式跃迁。

2 — Flash-Mono：三大核心模块，重塑单目SLAM

Flash-Mono的系统架构由三个精心设计的核心模块组成：循环前馈前端、隐状态回环检测和2DGS建图后端。下面逐一拆解。

Flash-Mono系统架构。对于每帧新图像，循环前馈模型基于隐状态联合推断相机位姿和每像素2DGS属性。流式输入被切分为子地图，历史隐状态缓存在"隐状态集合"中。回环检测时，只需基于历史隐状态做一次前向传播即可完成重定位，随后通过位姿图优化校正全局轨迹。

2.1 循环前馈前端：一次前向传播搞定一切

这是Flash-Mono的灵魂所在。

传统方法对每一帧做数百次迭代优化；Flash-Mono只需一次前向传播，就能同时输出：

相机位姿
每像素2D高斯属性（位置、颜色、透明度、旋转、尺度）
更新后的隐状态

其核心是一个有状态的Transformer架构。每帧图像先通过ViT编码器提取视觉token，再通过双解码器与持久化隐状态进行交叉注意力交互。隐状态像一个"记忆体"，不断聚合历史帧的几何和外观信息，让模型在预测当前帧时拥有多帧上下文，从根本上解决了单帧预测缺乏一致性的痛点。

数学上，整个过程简洁到令人震撼：

一个公式，搞定位姿估计+稠密建图+状态更新。

为什么这么快？因为它完全绕开了传统方法中耗时的"渲染→反传→更新"循环。模型在大规模数据集（DL3DV、ScanNet++）上经过充分训练后，已经学会了"看一眼就知道怎么建图"的能力。后端只需在此基础上做20次精调迭代（对比MonoGS的250次），即可获得高质量的渲染结果。

2.2 隐状态回环检测：SLAM界的"过目不忘"

单目SLAM最头疼的问题之一是累积漂移——走了一大圈回到起点，却发现地图对不上了。传统回环检测依赖特征匹配+PnP+RANSAC，不仅计算量大，而且在单目系统中无法感知尺度变化。

Flash-Mono提出了一个极其巧妙的方案：把隐状态当作子地图的"身份证"。

具体来说，系统将输入流切分为多个子地图（submap），每个子地图结束时，将其最终隐状态缓存到一个隐状态集合（Bag of Hidden States）中。当系统通过外观匹配（SalAD）检测到回访旧区域时：

取出历史隐状态，将当前帧送入模型做一次前向传播
模型会自动在历史坐标系下重定位当前帧，输出跨子地图的位姿约束
通过比较同一帧在两个坐标系下的点云，鲁棒地估计相对尺度
将完整的Sim(3)约束输入位姿图优化，一次性校正整条轨迹

这个方案的精妙之处在于：一次前向传播就能拿到精确的回环约束，而传统方法需要特征匹配+几何验证+多次优化。消融实验证明，这种隐状态回环检测方案显著优于传统PnP+RANSAC方案，在跟踪精度上有大幅领先。

2.3 2D高斯后端：更好的几何，更少的"飞点"

在场景表示上，Flash-Mono放弃了传统的3D高斯椭球，转而采用2D高斯面元（Surfel）。

为什么？因为3D高斯本质上是体积基元，缺乏显式的表面约束，容易产生"漂浮伪影"（floater）。而2D高斯面元天然是平面的，提供了更强的表面先验，在几何重建精度上有本质优势——对于SLAM这种小误差会快速累积的场景，这一点尤为关键。

后端流程包括四个阶段：

自适应体素化：将过于密集的前端预测进行2×2合并，减少58%的高斯数量，PSNR仅下降0.26
地图融合：将新帧的高斯变换到世界坐标系并融入全局地图，自动跳过已充分重建的区域
轻量化精调：仅需20次迭代即可获得高质量渲染，因为前端预测已提供了极强的先验
回环校正：回环后通过刚性变换高效更新高斯地图，无需耗时的重新渲染优化

3 — 实验：全面碾压，速度与质量双丰收

Flash-Mono在三个极具挑战性的数据集上进行了全面评估：ScanNet（大规模室内）、BundleFusion（域外室内）和KITTI（大规模户外）。所有实验在单张RTX 4090上完成。

渲染质量定性对比。Flash-Mono重建的RGB图像在纹理细节、边缘清晰度上均优于MonoGS、DepthGS和S3PO-GS。

跟踪精度：力压MASt3R-SLAM

在ScanNet和BundleFusion上，Flash-Mono的ATE RMSE全面超越了所有传统SLAM(ORB-SLAM3、DROID-SLAM)和GS-SLAM(MonoGS、DepthGS、S3PO-GS)基线。值得注意的是，它在大多数场景上还超越了MASt3R-SLAM——这是一个同样基于前馈模型的最新SLAM系统。

方法	ScanNet 0054	ScanNet 0106	BundleFusion copyroom	BundleFusion office0
ORB-SLAM3	243.26	178.13	27.60	116.33
DROID-SLAM	161.22	89.11	19.71	31.41
MonoGS	70.19	150.89	53.41	62.67
MASt3R-SLAM	13.25	15.83	9.28	9.97
Flash-Mono	11.69	10.83	7.34	8.74

ATE RMSE (cm)，越低越好

建图质量：用1/10的优化量打出更好的效果

在LPIPS指标（感知相似度）上，Flash-Mono在ScanNet和BundleFusion的所有11个场景上均取得第一名。PSNR指标同样在绝大多数场景上排名第一。

要知道，Flash-Mono每帧只做20次后端优化迭代，而MonoGS和S3PO-GS需要250次。用1/10的计算量，打出更好的效果——这就是"Predict-and-Refine"范式的威力。

速度：10倍加速，碾压全场

这是最震撼的数字：

方法	ScanNet FPS	BundleFusion FPS
MonoGS	0.69	1.00
S3PO-GS	0.71	0.94
DepthGS	1.57	1.28
Flash-Mono	12.71	11.99

Flash-Mono在ScanNet上达到12.71 FPS，是最快基线DepthGS的8倍，是主流方法MonoGS的18倍。这意味着单目GS-SLAM第一次真正达到了实时运行的标准。

几何精度：深度重建更准

深度渲染定性对比。Flash-Mono的深度图更加平滑、边界更锐利，其他方法的深度图存在明显的噪声和孔洞

在Depth L1误差指标上，Flash-Mono在ScanNet上的平均误差为0.34m，远低于DepthGS的0.49m和S3PO-GS的0.52m，说明2DGS面元表示带来了实质性的几何精度提升。

户外泛化：KITTI上同样强劲

在大尺度户外场景KITTI上，Flash-Mono同样全面领先S3PO-GS（唯一能在户外跑通的GS-SLAM基线）。特别地，S3PO-GS在KITTI 07上直接失败，而Flash-Mono依然稳定运行。

轨迹估计定性对比。彩色轨迹为各方法的估计结果（蓝色=低误差，红色=高误差），灰色虚线为真值。Flash-Mono的轨迹几乎与真值完全重合，而其他方法存在明显的偏离和漂移。

ScanNet 0054场景重建对比。该场景为多房间公寓，含光照变化，所有基线方法均未能完整重建，而Flash-Mono成功重建出完整场景。

4 — 更多亮点

部署友好：笔记本也能跑

Flash-Mono整个模型约7.96亿参数，推理仅需3GB显存。经过FP16量化和CUDA Graph加速后，在笔记本级显卡RTX 4060上也能达到85ms/帧的推理速度，接近桌面RTX 4090的62ms。这为边缘端部署打开了大门。

5 — 总结

Flash-Mono完成了一次真正的范式革命：它让单目高斯SLAM从"每帧从零训练"的笨拙模式，跃迁到"一次预测+轻量精调"的优雅范式。

10倍的速度提升不是靠牺牲质量换来的——恰恰相反，Flash-Mono在跟踪精度、渲染质量、几何精度上同时达到了SOTA水平。隐状态回环检测机制更是优雅地解决了单目SLAM中长期存在的漂移问题，展示了前馈大模型在SLAM领域的巨大潜力。

一个有趣的未来方向是：如果将这种"隐状态记忆"机制与语义理解相结合，是否能让机器人不仅"记住去过哪里"，还能"理解到过什么地方"？从空间记忆到场景语义，或许正是具身智能走向成熟的下一步。

论文链接：https://victkk.github.io/flash-mono
作者团队：复旦大学、上海科技大学、上海交通大学

本文仅做学术分享，如有侵权，请联系删文。

3D视觉方向论文辅导来啦！可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。

ICLR 2026 | 复旦上交上科等提出Flash-Mono：10倍加速！单目高斯SLAM首次突破实时瓶颈

导读