news 2026/4/27 6:44:51

ICLR 2026 | 复旦上交上科等提出Flash-Mono:10倍加速!单目高斯SLAM首次突破实时瓶颈

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ICLR 2026 | 复旦上交上科等提出Flash-Mono:10倍加速!单目高斯SLAM首次突破实时瓶颈

击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

作者:张子程(授权发布) | 编辑:3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内有20多门3D视觉系统视频课程、300+场顶会讲解、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎加入!

导读

在机器人感知的世界里,"看得快"和"建得好"从来是一对不可兼得的矛盾。

现有的单目高斯SLAM方法虽然能用一颗RGB摄像头重建出逼真的三维场景,但它们有一个致命的瓶颈——每一帧都要从零训练高斯,速度被死死卡在1 FPS以下。这就好比让一个画家每画一幅画都要从磨颜料开始,无论多有天赋,也快不起来。

更要命的是,单帧深度估计天生没有统一的尺度,帧与帧之间的几何"各说各话",累积下来就是严重的漂移——地图越长越歪。

这一次,复旦大学、上海科技大学、上海交通大学联合提出了Flash-Mono——一个彻底颠覆传统范式的单目高斯SLAM系统。它用一个循环前馈大模型直接预测相机位姿和每像素的高斯属性,将"从零训练"变为"预测+精调",一举实现了10倍以上的速度提升,首次让单目GS-SLAM迈入真正的实时(10+ FPS)时代。不仅如此,它还创造性地利用隐状态作为子地图描述符来实现回环检测,通过Sim(3)全局优化彻底消除累积漂移,在跟踪精度和建图质量上全面碾压现有方法。

该工作已被ICLR 2026接收。

Flash-Mono在复杂多房间场景中的重建效果与各项指标雷达图对比。右侧雷达图展示了渲染质量(PSNR、SSIM、LPIPS)和轨迹跟踪精度(ATE),Flash-Mono在各维度上全面领先,同时速度提升10倍。

论文出处:ICLR 2026

论文标题:Flash-Mono: Feed-Forward Accelerated Gaussian Splatting Monocular SLAM

论文作者:Zicheng Zhang, Ke Wu, Xiangting Meng, Keyu Liu, Jieru Zhao, Wenchao Ding

作者单位:复旦大学、上海科技大学、上海交通大学

项目主页:https://victkk.github.io/flash-mono

1 — 为什么现有方法这么慢?一个范式级的瓶颈

要理解Flash-Mono的突破性,我们首先要搞清楚:为什么当前最好的单目GS-SLAM方法连1 FPS都跑不到?

答案藏在一个词里:Train-from-Scratch(从零训练)

现有方法如MonoGS、DepthGS、S3PO-GS等,每来一帧新图像,都需要:随机初始化高斯属性 → 渲染 → 计算loss → 反向传播 → 更新参数,重复数百次。一次迭代大约20ms,一帧下来就需要将近一秒。这还没算跟踪、回环等开销。

更棘手的是,这些方法依赖单帧深度估计网络来提供几何先验,但单目深度本质上是尺度不一致的——第一帧预测的"1米"和第十帧预测的"1米"可能差了好几倍。随着序列变长,漂移像滚雪球一样越积越大,最终地图面目全非。

Flash-Mono的核心洞察是:与其让高斯从零学习,不如用一个强大的前馈模型直接预测出来,然后只做轻量化精调。这就是从"Train-from-Scratch"到"Predict-and-Refine"的范式跃迁。

2 — Flash-Mono:三大核心模块,重塑单目SLAM

Flash-Mono的系统架构由三个精心设计的核心模块组成:循环前馈前端隐状态回环检测2DGS建图后端。下面逐一拆解。

Flash-Mono系统架构。对于每帧新图像,循环前馈模型基于隐状态联合推断相机位姿和每像素2DGS属性。流式输入被切分为子地图,历史隐状态缓存在"隐状态集合"中。回环检测时,只需基于历史隐状态做一次前向传播即可完成重定位,随后通过位姿图优化校正全局轨迹。

2.1 循环前馈前端:一次前向传播搞定一切

这是Flash-Mono的灵魂所在。

传统方法对每一帧做数百次迭代优化;Flash-Mono只需一次前向传播,就能同时输出:

  • 相机位姿

  • 每像素2D高斯属性(位置、颜色、透明度、旋转、尺度)

  • 更新后的隐状态

其核心是一个有状态的Transformer架构。每帧图像先通过ViT编码器提取视觉token,再通过双解码器与持久化隐状态进行交叉注意力交互。隐状态像一个"记忆体",不断聚合历史帧的几何和外观信息,让模型在预测当前帧时拥有多帧上下文,从根本上解决了单帧预测缺乏一致性的痛点。

数学上,整个过程简洁到令人震撼:

一个公式,搞定位姿估计+稠密建图+状态更新。

为什么这么快?因为它完全绕开了传统方法中耗时的"渲染→反传→更新"循环。模型在大规模数据集(DL3DV、ScanNet++)上经过充分训练后,已经学会了"看一眼就知道怎么建图"的能力。后端只需在此基础上做20次精调迭代(对比MonoGS的250次),即可获得高质量的渲染结果。

2.2 隐状态回环检测:SLAM界的"过目不忘"

单目SLAM最头疼的问题之一是累积漂移——走了一大圈回到起点,却发现地图对不上了。传统回环检测依赖特征匹配+PnP+RANSAC,不仅计算量大,而且在单目系统中无法感知尺度变化。

Flash-Mono提出了一个极其巧妙的方案:把隐状态当作子地图的"身份证"。

具体来说,系统将输入流切分为多个子地图(submap),每个子地图结束时,将其最终隐状态缓存到一个隐状态集合(Bag of Hidden States)中。当系统通过外观匹配(SalAD)检测到回访旧区域时:

  1. 取出历史隐状态,将当前帧送入模型做一次前向传播

  2. 模型会自动在历史坐标系下重定位当前帧,输出跨子地图的位姿约束

  3. 通过比较同一帧在两个坐标系下的点云,鲁棒地估计相对尺度

  4. 将完整的Sim(3)约束输入位姿图优化,一次性校正整条轨迹

这个方案的精妙之处在于:一次前向传播就能拿到精确的回环约束,而传统方法需要特征匹配+几何验证+多次优化。消融实验证明,这种隐状态回环检测方案显著优于传统PnP+RANSAC方案,在跟踪精度上有大幅领先。

2.3 2D高斯后端:更好的几何,更少的"飞点"

在场景表示上,Flash-Mono放弃了传统的3D高斯椭球,转而采用2D高斯面元(Surfel)

为什么?因为3D高斯本质上是体积基元,缺乏显式的表面约束,容易产生"漂浮伪影"(floater)。而2D高斯面元天然是平面的,提供了更强的表面先验,在几何重建精度上有本质优势——对于SLAM这种小误差会快速累积的场景,这一点尤为关键。

后端流程包括四个阶段:

  • 自适应体素化:将过于密集的前端预测进行2×2合并,减少58%的高斯数量,PSNR仅下降0.26

  • 地图融合:将新帧的高斯变换到世界坐标系并融入全局地图,自动跳过已充分重建的区域

  • 轻量化精调:仅需20次迭代即可获得高质量渲染,因为前端预测已提供了极强的先验

  • 回环校正:回环后通过刚性变换高效更新高斯地图,无需耗时的重新渲染优化

3 — 实验:全面碾压,速度与质量双丰收

Flash-Mono在三个极具挑战性的数据集上进行了全面评估:ScanNet(大规模室内)、BundleFusion(域外室内)和KITTI(大规模户外)。所有实验在单张RTX 4090上完成。

渲染质量定性对比。Flash-Mono重建的RGB图像在纹理细节、边缘清晰度上均优于MonoGS、DepthGS和S3PO-GS。

跟踪精度:力压MASt3R-SLAM

在ScanNet和BundleFusion上,Flash-Mono的ATE RMSE全面超越了所有传统SLAM(ORB-SLAM3、DROID-SLAM)和GS-SLAM(MonoGS、DepthGS、S3PO-GS)基线。值得注意的是,它在大多数场景上还超越了MASt3R-SLAM——这是一个同样基于前馈模型的最新SLAM系统。

方法

ScanNet 0054

ScanNet 0106

BundleFusion copyroom

BundleFusion office0

ORB-SLAM3

243.26

178.13

27.60

116.33

DROID-SLAM

161.22

89.11

19.71

31.41

MonoGS

70.19

150.89

53.41

62.67

MASt3R-SLAM

13.25

15.83

9.28

9.97

Flash-Mono11.6910.837.348.74

ATE RMSE (cm),越低越好

建图质量:用1/10的优化量打出更好的效果

在LPIPS指标(感知相似度)上,Flash-Mono在ScanNet和BundleFusion的所有11个场景上均取得第一名。PSNR指标同样在绝大多数场景上排名第一。

要知道,Flash-Mono每帧只做20次后端优化迭代,而MonoGS和S3PO-GS需要250次。用1/10的计算量,打出更好的效果——这就是"Predict-and-Refine"范式的威力。

速度:10倍加速,碾压全场

这是最震撼的数字:

方法

ScanNet FPS

BundleFusion FPS

MonoGS

0.69

1.00

S3PO-GS

0.71

0.94

DepthGS

1.57

1.28

Flash-Mono12.7111.99

Flash-Mono在ScanNet上达到12.71 FPS,是最快基线DepthGS的8倍,是主流方法MonoGS的18倍。这意味着单目GS-SLAM第一次真正达到了实时运行的标准。

几何精度:深度重建更准

深度渲染定性对比。Flash-Mono的深度图更加平滑、边界更锐利,其他方法的深度图存在明显的噪声和孔洞

在Depth L1误差指标上,Flash-Mono在ScanNet上的平均误差为0.34m,远低于DepthGS的0.49m和S3PO-GS的0.52m,说明2DGS面元表示带来了实质性的几何精度提升。

户外泛化:KITTI上同样强劲

在大尺度户外场景KITTI上,Flash-Mono同样全面领先S3PO-GS(唯一能在户外跑通的GS-SLAM基线)。特别地,S3PO-GS在KITTI 07上直接失败,而Flash-Mono依然稳定运行。

轨迹估计定性对比。彩色轨迹为各方法的估计结果(蓝色=低误差,红色=高误差),灰色虚线为真值。Flash-Mono的轨迹几乎与真值完全重合,而其他方法存在明显的偏离和漂移。
ScanNet 0054场景重建对比。该场景为多房间公寓,含光照变化,所有基线方法均未能完整重建,而Flash-Mono成功重建出完整场景。

4 — 更多亮点

部署友好:笔记本也能跑

Flash-Mono整个模型约7.96亿参数,推理仅需3GB显存。经过FP16量化和CUDA Graph加速后,在笔记本级显卡RTX 4060上也能达到85ms/帧的推理速度,接近桌面RTX 4090的62ms。这为边缘端部署打开了大门。

5 — 总结

Flash-Mono完成了一次真正的范式革命:它让单目高斯SLAM从"每帧从零训练"的笨拙模式,跃迁到"一次预测+轻量精调"的优雅范式。

10倍的速度提升不是靠牺牲质量换来的——恰恰相反,Flash-Mono在跟踪精度、渲染质量、几何精度上同时达到了SOTA水平。隐状态回环检测机制更是优雅地解决了单目SLAM中长期存在的漂移问题,展示了前馈大模型在SLAM领域的巨大潜力。

一个有趣的未来方向是:如果将这种"隐状态记忆"机制与语义理解相结合,是否能让机器人不仅"记住去过哪里",还能"理解到过什么地方"?从空间记忆到场景语义,或许正是具身智能走向成熟的下一步。

论文链接:https://victkk.github.io/flash-mono

作者团队:复旦大学、上海科技大学、上海交通大学

本文仅做学术分享,如有侵权,请联系删文。

3D视觉方向论文辅导来啦!可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。

添加微信:cv3d001,备注:姓名+方向+单位,邀请入群。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/27 6:42:09

注入活人感降AI怎么操作?4个细节让AI内容通过所有平台检测

AI检测工具识别AI内容,很大程度上是靠“特征模式“:完美的结构、均匀的句长、缺少个人视角、没有不确定性。 注入“活人感“的逻辑就是反过来:加入真人写作会有的那些不完美之处。具体怎么操作?4个细节。 细节1:加入…

作者头像 李华
网站建设 2026/4/16 8:53:22

3大难题如何破解:猫抓浏览器资源嗅探扩展终极指南

3大难题如何破解:猫抓浏览器资源嗅探扩展终极指南 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 猫抓(cat-catch&#xff…

作者头像 李华
网站建设 2026/4/16 10:56:02

CasRel惊艳效果展示:法律文书里准确抽取‘原告-诉讼请求-被告’关系

CasRel惊艳效果展示:法律文书里准确抽取‘原告-诉讼请求-被告’关系 1. 引言:法律文书的智能解析革命 想象一下,一位律师需要从几百页的诉讼文书中找出所有原告对被告的具体诉讼请求。传统方法需要逐页阅读、手动标注,耗时耗力还…

作者头像 李华
网站建设 2026/4/18 3:37:31

django-webpack-loader 配置详解:从开发到生产的完整设置方案

django-webpack-loader 配置详解:从开发到生产的完整设置方案 【免费下载链接】django-webpack-loader Transparently use webpack with django 项目地址: https://gitcode.com/gh_mirrors/dj/django-webpack-loader django-webpack-loader 是一款强大的工具…

作者头像 李华
网站建设 2026/4/15 4:39:59

Java对接腾讯云KMS:联盟链私钥托管的完整实战指南

一、引言 在联盟链的企业级应用中,私钥安全一直是生产环境最大的痛点。以Hyperledger Fabric为代表的联盟链,每个组织持有节点证书、用户签名私钥等多对密钥,一旦泄露,轻则导致交易伪造,重则造成整个组织的节点身份被冒用。更棘手的是,私钥存储难题长期未能得到有效解决…

作者头像 李华
网站建设 2026/4/16 23:18:45

掌握MVVM-Kotlin-Android-Architecture:提升应用性能的7个实用技巧

掌握MVVM-Kotlin-Android-Architecture:提升应用性能的7个实用技巧 【免费下载链接】Android-MVVM-Architecture MVVM Kotlin Retrofit2 Hilt Coroutines Kotlin Flow mockK Espresso Junit5 项目地址: https://gitcode.com/gh_mirrors/mv/Android-MVVM-A…

作者头像 李华