击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
作者:张子程(授权发布) | 编辑:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内有20多门3D视觉系统视频课程、300+场顶会讲解、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎加入!
导读
在机器人感知的世界里,"看得快"和"建得好"从来是一对不可兼得的矛盾。
现有的单目高斯SLAM方法虽然能用一颗RGB摄像头重建出逼真的三维场景,但它们有一个致命的瓶颈——每一帧都要从零训练高斯,速度被死死卡在1 FPS以下。这就好比让一个画家每画一幅画都要从磨颜料开始,无论多有天赋,也快不起来。
更要命的是,单帧深度估计天生没有统一的尺度,帧与帧之间的几何"各说各话",累积下来就是严重的漂移——地图越长越歪。
这一次,复旦大学、上海科技大学、上海交通大学联合提出了Flash-Mono——一个彻底颠覆传统范式的单目高斯SLAM系统。它用一个循环前馈大模型直接预测相机位姿和每像素的高斯属性,将"从零训练"变为"预测+精调",一举实现了10倍以上的速度提升,首次让单目GS-SLAM迈入真正的实时(10+ FPS)时代。不仅如此,它还创造性地利用隐状态作为子地图描述符来实现回环检测,通过Sim(3)全局优化彻底消除累积漂移,在跟踪精度和建图质量上全面碾压现有方法。
该工作已被ICLR 2026接收。
论文出处:ICLR 2026
论文标题:Flash-Mono: Feed-Forward Accelerated Gaussian Splatting Monocular SLAM
论文作者:Zicheng Zhang, Ke Wu, Xiangting Meng, Keyu Liu, Jieru Zhao, Wenchao Ding
作者单位:复旦大学、上海科技大学、上海交通大学
项目主页:https://victkk.github.io/flash-mono
1 — 为什么现有方法这么慢?一个范式级的瓶颈
要理解Flash-Mono的突破性,我们首先要搞清楚:为什么当前最好的单目GS-SLAM方法连1 FPS都跑不到?
答案藏在一个词里:Train-from-Scratch(从零训练)。
现有方法如MonoGS、DepthGS、S3PO-GS等,每来一帧新图像,都需要:随机初始化高斯属性 → 渲染 → 计算loss → 反向传播 → 更新参数,重复数百次。一次迭代大约20ms,一帧下来就需要将近一秒。这还没算跟踪、回环等开销。
更棘手的是,这些方法依赖单帧深度估计网络来提供几何先验,但单目深度本质上是尺度不一致的——第一帧预测的"1米"和第十帧预测的"1米"可能差了好几倍。随着序列变长,漂移像滚雪球一样越积越大,最终地图面目全非。
Flash-Mono的核心洞察是:与其让高斯从零学习,不如用一个强大的前馈模型直接预测出来,然后只做轻量化精调。这就是从"Train-from-Scratch"到"Predict-and-Refine"的范式跃迁。
2 — Flash-Mono:三大核心模块,重塑单目SLAM
Flash-Mono的系统架构由三个精心设计的核心模块组成:循环前馈前端、隐状态回环检测和2DGS建图后端。下面逐一拆解。
2.1 循环前馈前端:一次前向传播搞定一切
这是Flash-Mono的灵魂所在。
传统方法对每一帧做数百次迭代优化;Flash-Mono只需一次前向传播,就能同时输出:
相机位姿
每像素2D高斯属性(位置、颜色、透明度、旋转、尺度)
更新后的隐状态
其核心是一个有状态的Transformer架构。每帧图像先通过ViT编码器提取视觉token,再通过双解码器与持久化隐状态进行交叉注意力交互。隐状态像一个"记忆体",不断聚合历史帧的几何和外观信息,让模型在预测当前帧时拥有多帧上下文,从根本上解决了单帧预测缺乏一致性的痛点。
数学上,整个过程简洁到令人震撼:
一个公式,搞定位姿估计+稠密建图+状态更新。
为什么这么快?因为它完全绕开了传统方法中耗时的"渲染→反传→更新"循环。模型在大规模数据集(DL3DV、ScanNet++)上经过充分训练后,已经学会了"看一眼就知道怎么建图"的能力。后端只需在此基础上做20次精调迭代(对比MonoGS的250次),即可获得高质量的渲染结果。
2.2 隐状态回环检测:SLAM界的"过目不忘"
单目SLAM最头疼的问题之一是累积漂移——走了一大圈回到起点,却发现地图对不上了。传统回环检测依赖特征匹配+PnP+RANSAC,不仅计算量大,而且在单目系统中无法感知尺度变化。
Flash-Mono提出了一个极其巧妙的方案:把隐状态当作子地图的"身份证"。
具体来说,系统将输入流切分为多个子地图(submap),每个子地图结束时,将其最终隐状态缓存到一个隐状态集合(Bag of Hidden States)中。当系统通过外观匹配(SalAD)检测到回访旧区域时:
取出历史隐状态,将当前帧送入模型做一次前向传播
模型会自动在历史坐标系下重定位当前帧,输出跨子地图的位姿约束
通过比较同一帧在两个坐标系下的点云,鲁棒地估计相对尺度
将完整的Sim(3)约束输入位姿图优化,一次性校正整条轨迹
这个方案的精妙之处在于:一次前向传播就能拿到精确的回环约束,而传统方法需要特征匹配+几何验证+多次优化。消融实验证明,这种隐状态回环检测方案显著优于传统PnP+RANSAC方案,在跟踪精度上有大幅领先。
2.3 2D高斯后端:更好的几何,更少的"飞点"
在场景表示上,Flash-Mono放弃了传统的3D高斯椭球,转而采用2D高斯面元(Surfel)。
为什么?因为3D高斯本质上是体积基元,缺乏显式的表面约束,容易产生"漂浮伪影"(floater)。而2D高斯面元天然是平面的,提供了更强的表面先验,在几何重建精度上有本质优势——对于SLAM这种小误差会快速累积的场景,这一点尤为关键。
后端流程包括四个阶段:
自适应体素化:将过于密集的前端预测进行2×2合并,减少58%的高斯数量,PSNR仅下降0.26
地图融合:将新帧的高斯变换到世界坐标系并融入全局地图,自动跳过已充分重建的区域
轻量化精调:仅需20次迭代即可获得高质量渲染,因为前端预测已提供了极强的先验
回环校正:回环后通过刚性变换高效更新高斯地图,无需耗时的重新渲染优化
3 — 实验:全面碾压,速度与质量双丰收
Flash-Mono在三个极具挑战性的数据集上进行了全面评估:ScanNet(大规模室内)、BundleFusion(域外室内)和KITTI(大规模户外)。所有实验在单张RTX 4090上完成。
跟踪精度:力压MASt3R-SLAM
在ScanNet和BundleFusion上,Flash-Mono的ATE RMSE全面超越了所有传统SLAM(ORB-SLAM3、DROID-SLAM)和GS-SLAM(MonoGS、DepthGS、S3PO-GS)基线。值得注意的是,它在大多数场景上还超越了MASt3R-SLAM——这是一个同样基于前馈模型的最新SLAM系统。
方法 | ScanNet 0054 | ScanNet 0106 | BundleFusion copyroom | BundleFusion office0 |
|---|---|---|---|---|
ORB-SLAM3 | 243.26 | 178.13 | 27.60 | 116.33 |
DROID-SLAM | 161.22 | 89.11 | 19.71 | 31.41 |
MonoGS | 70.19 | 150.89 | 53.41 | 62.67 |
MASt3R-SLAM | 13.25 | 15.83 | 9.28 | 9.97 |
| Flash-Mono | 11.69 | 10.83 | 7.34 | 8.74 |
ATE RMSE (cm),越低越好
建图质量:用1/10的优化量打出更好的效果
在LPIPS指标(感知相似度)上,Flash-Mono在ScanNet和BundleFusion的所有11个场景上均取得第一名。PSNR指标同样在绝大多数场景上排名第一。
要知道,Flash-Mono每帧只做20次后端优化迭代,而MonoGS和S3PO-GS需要250次。用1/10的计算量,打出更好的效果——这就是"Predict-and-Refine"范式的威力。
速度:10倍加速,碾压全场
这是最震撼的数字:
方法 | ScanNet FPS | BundleFusion FPS |
|---|---|---|
MonoGS | 0.69 | 1.00 |
S3PO-GS | 0.71 | 0.94 |
DepthGS | 1.57 | 1.28 |
| Flash-Mono | 12.71 | 11.99 |
Flash-Mono在ScanNet上达到12.71 FPS,是最快基线DepthGS的8倍,是主流方法MonoGS的18倍。这意味着单目GS-SLAM第一次真正达到了实时运行的标准。
几何精度:深度重建更准
在Depth L1误差指标上,Flash-Mono在ScanNet上的平均误差为0.34m,远低于DepthGS的0.49m和S3PO-GS的0.52m,说明2DGS面元表示带来了实质性的几何精度提升。
户外泛化:KITTI上同样强劲
在大尺度户外场景KITTI上,Flash-Mono同样全面领先S3PO-GS(唯一能在户外跑通的GS-SLAM基线)。特别地,S3PO-GS在KITTI 07上直接失败,而Flash-Mono依然稳定运行。
4 — 更多亮点
部署友好:笔记本也能跑
Flash-Mono整个模型约7.96亿参数,推理仅需3GB显存。经过FP16量化和CUDA Graph加速后,在笔记本级显卡RTX 4060上也能达到85ms/帧的推理速度,接近桌面RTX 4090的62ms。这为边缘端部署打开了大门。
5 — 总结
Flash-Mono完成了一次真正的范式革命:它让单目高斯SLAM从"每帧从零训练"的笨拙模式,跃迁到"一次预测+轻量精调"的优雅范式。
10倍的速度提升不是靠牺牲质量换来的——恰恰相反,Flash-Mono在跟踪精度、渲染质量、几何精度上同时达到了SOTA水平。隐状态回环检测机制更是优雅地解决了单目SLAM中长期存在的漂移问题,展示了前馈大模型在SLAM领域的巨大潜力。
一个有趣的未来方向是:如果将这种"隐状态记忆"机制与语义理解相结合,是否能让机器人不仅"记住去过哪里",还能"理解到过什么地方"?从空间记忆到场景语义,或许正是具身智能走向成熟的下一步。
论文链接:https://victkk.github.io/flash-mono
作者团队:复旦大学、上海科技大学、上海交通大学
本文仅做学术分享,如有侵权,请联系删文。
3D视觉方向论文辅导来啦!可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。
添加微信:cv3d001,备注:姓名+方向+单位,邀请入群。