news 2026/6/10 12:52:50

【厦门大学-涂晓彤组-AAAI26】用于通用图像融合的自监督多路共识Mamba

张小明

前端开发工程师

1.2k 24

文章封面图 — 【厦门大学-涂晓彤组-AAAI26】用于通用图像融合的自监督多路共识Mamba

文章：Self-supervised Multiplex Consensus Mamba for General Image Fusion

代码：暂无

单位：厦门大学

一、问题背景：现有图像融合技术的三大痛点

任务适配性差：多数方法是“专才”而非“通才”，只能处理红外-可见光融合、医疗图像融合等单一任务，无法灵活应对多聚焦、多曝光等不同场景的融合需求。
细节捕捉不足：深度学习方法普遍存在“低频偏好”，难以精准捕捉图像的高频细节（如纹理、边缘），导致融合结果视觉质量不佳，影响后续任务效果。
效率与效果失衡：CNN擅长捕捉局部特征但缺乏全局视野，Transformer能建模全局依赖但计算量呈二次增长，现有技术难以兼顾融合效果与运行效率。

同时，不同融合任务虽目标各异，但核心需求一致——保留高频细节与结构信息，这为通用图像融合框架的研发提供了切入点。

二、方法创新：SMC-Mamba的四大核心设计

SMC-Mamba（Self-supervised Multiplex Consensus Mamba）以“通用、高效、细节丰富”为目标，整合三大核心模块与创新扫描机制，实现全方位突破：

1. MAFE模块：细节与全局“两手抓”

局部分支：通过自适应门控机制，精准提取图像的局部精细特征，不放过纹理、边缘等高频细节。
全局分支：结合空间-通道扫描与频率-旋转扫描，高效建模全局上下文信息，同时捕捉图像的频率域关系，避免“只见树木不见森林”。
最终将局部与全局特征融合，实现“局部精准+全局统筹”的特征增强效果。

2. MCCM模块：多专家协作的“智能团队”

构建4个跨模态Mamba专家网络，每个专家擅长不同的融合策略，能应对不同场景的融合需求。
通过门控网络自适应选择最优的2个专家参与融合，引入可学习噪声保证专家选择的平衡性，避免“一家独大”。
设计负载均衡损失、专家多样性损失与共识损失，既鼓励专家各展所长，又确保最终融合结果的一致性与可靠性。

3. BSCL损失：自监督增强高频细节

无需人工标注，通过特征级与像素级的对比学习，让融合图像的高频成分向原始图像靠拢，同时与低频成分拉开距离。
在不增加计算量的前提下，强化高频细节保留，让融合结果更清晰、更贴近真实场景。

4. 跨模态扫描：打破模态壁垒

创新设计空间-通道交互扫描与跨模态双向扫描，强化不同模态图像间的特征交互，实现互补信息的无缝整合。
解决了传统扫描方式忽略跨模态依赖的问题，让融合过程更顺畅、结果更自然。

三、实验结果：全面超越现有SOTA方法

团队在红外-可见光、医疗、多聚焦、多曝光四大融合任务中，与IFCNN、SwinFusion等20余种主流方法进行了对比，结果堪称“碾压级”：

1. 定量指标领先

红外-可见光融合任务：在MSRS数据集上， mutual information（信息交互）达4.490，spatial frequency（空间频率）达12.211，均位列第一；
多聚焦融合任务：在MFI-WHU数据集上，spatial frequency高达35.669，平均梯度（AG）达10.929，远超其他方法；
所有任务中，SMC-Mamba在 mutual information、空间频率、结构相似度等核心指标上均保持领先。

2. 视觉效果出色

红外-可见光融合中，仅SMC-Mamba能清晰突出行人等目标；
多聚焦融合中，可精准保留栏杆棱角、旗帜纹路等细节，同时维持色彩真实性；
下游任务增益明显：在语义分割任务中，mIoU值达79.3%，能精准分割车辆、路边区域等目标，优于所有对比方法。

3. 效率优势显著

模型参数仅0.149M，计算量46.105G FLOPs，推理时间288.545ms，远低于Transformer类方法，甚至优于部分CNN方法，兼顾轻量化与高效性。

四、优势与局限

核心优势

通用性强：无缝适配红外-可见光、医疗、多聚焦、多曝光四大融合任务，无需针对特定任务调整架构。
细节丰富：通过MAFE模块与BSCL损失，大幅提升高频细节保留能力，融合结果视觉质量更高。
效率优异：基于Mamba的线性复杂度特性，结合动态专家选择机制，实现“效果优+速度快”的双重优势。
下游友好：融合结果能为目标检测、语义分割等下游任务提供更优质的输入，显著提升下游任务性能。

现存局限

专家数量（当前为4个）与选择策略的优化空间：可进一步探索专家数量与任务复杂度的匹配关系，提升自适应能力；
极端场景适应性：在低光照、强噪声等极端条件下的融合效果，仍需进一步验证与优化；
实时性落地：虽已具备较高效率，但在嵌入式设备等资源受限场景下的实时运行能力，需进一步提升。

五、一句话总结

SMC-Mamba通过多专家协作、自监督细节增强与创新扫描机制，成功突破现有图像融合技术的任务适配、细节捕捉与效率平衡难题，为红外-可见光、医疗、多聚焦等多场景融合提供了高效通用的解决方案，同时为下游视觉任务提供更强支撑。

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/6/6 18:26:08

Qwen多任务协同：情感判断如何影响对话生成

Qwen多任务协同：情感判断如何影响对话生成 1. 引言：单模型驱动的智能对话新范式在当前AI应用快速落地的背景下，如何在资源受限的设备上实现高效、稳定的多任务推理成为工程实践中的关键挑战。传统方案通常采用“专用模型堆叠”架构——例如…

作者头像

李华

网站建设 2026/6/6 1:53:22

GPEN人像增强模型伦理讨论：过度美化带来的社会影响

GPEN人像增强模型伦理讨论：过度美化带来的社会影响 1. 镜像环境说明组件版本核心框架PyTorch 2.5.0CUDA 版本12.4Python 版本3.11推理代码位置/root/GPEN 主要依赖库： - facexlib: 用于人脸检测与对齐 - basicsr: 基础超分框架支持 - opencv-python,…

作者头像

李华

网站建设 2026/6/5 15:29:25

前端开发者的AI翻译初体验：JavaScript直连云端GPU方案

前端开发者的AI翻译初体验：JavaScript直连云端GPU方案你是不是也遇到过这样的情况？作为前端开发者，日常任务是写页面、调接口、优化交互。突然有一天产品经理拍了拍你肩膀：“咱们聊天窗口要加个实时翻译功能，下周上线…

作者头像

李华

网站建设 2026/6/9 21:31:09

Fun-ASR模型加载失败？五步定位问题根源的诊断流程

Fun-ASR模型加载失败？五步定位问题根源的诊断流程 1. 引言：Fun-ASR 系统背景与常见挑战 Fun-ASR 是由钉钉与通义联合推出的语音识别大模型系统，旨在为开发者和企业用户提供高精度、低延迟的自动语音识别（ASR）能力。该…

作者头像

李华

网站建设 2026/6/10 8:49:16

零基础玩转DeepSeek-R1：保姆级云端教程，3步上手

零基础玩转DeepSeek-R1：保姆级云端教程，3步上手你是不是也和我一样，刚接触AI大模型时被各种“本地部署”“显存要求”“CUDA环境配置”搞得头大？看到别人说运行DeepSeek-R1需要8张A100、300GB显存，甚至上千GB内存&am…

作者头像

李华

网站建设 2026/5/19 6:15:04

万物识别模型推理耗时分析：cProfile性能剖析实战

万物识别模型推理耗时分析：cProfile性能剖析实战在当前多模态AI快速发展的背景下，图像识别技术已广泛应用于内容审核、智能搜索、自动化标注等场景。其中，“万物识别-中文-通用领域”作为阿里开源的一款面向中文语境的通用图像识别模型&…

作者头像

李华