news 2026/4/16 0:20:09

(论文速读)LCT:用于RGB-D突出物体检测的轻型跨模态变压器

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
(论文速读)LCT:用于RGB-D突出物体检测的轻型跨模态变压器

论文题目:Lightweight cross-modal transformer for RGB-D salient object detection(用于RGB-D突出物体检测的轻型跨模态变压器)

期刊:Computer Vision and Image Understanding (计算机视觉与图像理解)

摘要:最近,基于transformer的RGB-D显著物体检测(SOD)模型将性能提升到了一个新的水平。然而,它们的代价是消耗大量的资源,包括内存和功率,从而阻碍了它们的实际应用。为了解决这种情况,本文将介绍一种用于RGB-D SOD的新型轻型跨模变压器(LCT)。具体而言,LCT将首先采用中级特征融合结构,以轻量级Transformer为骨干,降低其参数和计算成本。然后,在变压器的帮助下,通过有效地从多模态输入图像中捕获跨模态和跨层次的互补信息来补偿性能下降。为此,将设计一个具有轻量级通道交叉注意块(LCCAB)的跨模态增强和融合模块(CEFM),以有效捕获跨模态互补信息,但成本更低。设计了一个双向多级特征交互模块(Bi-MFIM),该模块具有轻量级的空间交叉注意块(LSCAB),用于捕获交叉层次的互补上下文信息。利用CEFM和Bi-MFIM,可以很好地补偿由于参数缩减而导致的性能下降,从而提高性能。通过这样做,我们提出的模型只有2.8M参数,7.6G FLOPs,运行速度为66 FPS。此外,在多个基准数据集上的实验结果表明,我们提出的模型可以获得与其他模型相当甚至更好的结果。

代码地址:https://github.com/nexiakele/lightweight-cross-modalTransformer-LCT-for-RGB-D-SOD上发布。


轻量级跨模态Transformer:让RGB-D显著性检测飞起来

引言

想象一下,你正在开发一个智能机器人,需要让它快速识别场景中最重要的物体。RGB-D相机可以提供彩色和深度信息,但如何让模型既快又准地处理这些数据呢?今天要介绍的这篇来自西安电子科技大学和谢菲尔德大学的CVIU 2024论文,提出了一个令人惊艳的解决方案——轻量级跨模态Transformer(LCT)

背景:Transformer的双刃剑

近年来,Transformer在RGB-D显著性目标检测(SOD)领域大放异彩,性能远超传统CNN模型。但这一切都是有代价的:

  • 📊SwinNet:199.2M参数,124.7G FLOPs
  • 📊TriTransNet:139.6M参数,293.9G FLOPs
  • 🐌 运行速度:仅10 FPS左右

这样的模型在移动设备或车载计算机上根本无法实时运行!更糟的是,现有的轻量级RGB-D SOD模型几乎都基于CNN,Transformer的轻量级方案还是一片空白。

核心挑战:如何在减参的同时保持性能?

论文团队面临一个两难问题:

  • ❌ 简单减少参数 → 性能大幅下降
  • ❌ 保持性能 → 参数和计算量居高不下

他们的洞察是:性能下降可以通过更有效地捕获跨模态和跨层级互补信息来补偿

创新方案一:巧妙的结构设计

1. 中间层特征融合结构

传统双流结构需要两个大型特征提取器,而LCT采用了更聪明的策略:

传统双流: RGB图像 → 大型提取器 → 5层特征 ⎤ ⎦→ 多次融合 → 输出 深度图像 → 大型提取器 → 5层特征 ⎦ LCT中间层融合: RGB图像 → 小型提取器 → 3层特征 ⎤ ⎦→ 第3层融合 → 共享提取器 → 4-5层特征 → 输出 深度图像 → 小型提取器 → 3层特征 ⎦

优势

  • ✅ 只需要两个小型提取器 + 一个共享提取器
  • ✅ 只在一个层级进行跨模态融合
  • ✅ 参数量大幅减少

2. 轻量级骨干网络

采用MobileViT作为特征提取器,这是一个专为移动设备设计的高效Transformer。论文还验证了LightViT和EfficientFormer等其他轻量级Transformer的兼容性。

创新方案二:跨模态增强与融合模块(CEFM)

这是论文最精彩的部分之一!传统方法直接融合RGB和深度特征,但这会引入大量冗余信息。CEFM采用**"先增强,再融合"**的策略:

工作流程

  1. 双向增强

    • RGB特征从深度特征中"吸取"互补信息
    • 深度特征从RGB特征中"吸取"互补信息
  2. 融合增强特征

    • 将两个增强后的特征相加
    • 互补信息得到强化,冗余信息被抑制

轻量级通道交叉注意力块(LCCAB)

传统交叉注意力在空间维度计算,成本很高。LCCAB巧妙地在通道维度计算注意力:

# 伪代码示意 Q_c = Linear(Reshape(F_RGB)) # C1 × HW K_c = Linear(Reshape(F_Depth)) # C × HW # 通道维度的注意力 weights = Sigmoid(Linear(Q_c @ K_c.T / sqrt(C))) # C × 1 × 1 # 增强RGB特征 F_RGB_enhanced = F_RGB + weights * F_Depth

计算成本对比

  • 标准交叉注意力:C·HW(3C + HW) ≈ 14.7M(C=64, H=W=56)
  • LCCAB:C·HW(2C₁ + C) + C₁C² ≈ 0.25M(C₁=4)
  • 节省98%计算量!

创新方案三:双向多层级特征交互模块(Bi-MFIM)

现有方法通常密集聚合多层特征,但这会引入冗余信息。Bi-MFIM采用双向交互策略:

双向设计理念

从高到低方向

  • 高层特征(语义丰富)从低层特征提取细节信息
  • 第5层 → 从第4层学习 → 从第3层学习

从低到高方向

  • 低层特征(细节丰富)从高层特征提取语义信息
  • 第3层 → 从第4层学习 → 从第5层学习

轻量级空间交叉注意力块(LSCAB)

为了降低空间注意力的计算成本,LSCAB使用pooling降低查询特征的空间分辨率:

# 伪代码示意 Q_s = Linear(Reshape(Pooling(F_high))) # H1W1 × C (H1=4) K_s = Linear(Reshape(F_low)) # HW × C (H=56) # 空间注意力权重 weights = Reshape(Sigmoid(Linear(Q_s @ K_s.T / sqrt(C)))) # 1 × H × W # 特征增强 F_enhanced = F_high + weights * F_low

计算成本对比

  • 标准交叉注意力:C·HW(3C + 2HW) ≈ 26.2M
  • LSCAB:C²(H₁W₁ + HW) + (C+1)(H₁W₁HW) ≈ 0.7M
  • 节省97%计算量!

实验结果

模型效率令人惊叹

模型参数量FLOPs速度
SwinNet199.2M124.7G10 FPS
TriTransNet139.6M293.9G9.7 FPS
LCT2.8M7.6G66 FPS
  • 📉 参数量仅为SwinNet的1.4%
  • 📉 FLOPs仅为SwinNet的4.5%
  • 🚀 速度是SwinNet的6.6倍

性能不输重量级模型

在NJU2K数据集上:

  • F-measure: 0.910(超越VST的0.901)
  • MAE: 0.033(优于大多数CNN模型)
  • 与重量级Transformer模型性能相当

在其他三个数据集(NLPR、STEREO、SIP)上也取得了竞争性甚至更优的结果!

可视化结果

论文展示的定性结果非常convincing:

  • ✅ 小目标检测准确
  • ✅ 大目标边界清晰
  • ✅ 复杂背景下鲁棒
  • ✅ 多目标场景表现优异

消融实验:每个模块都至关重要

CEFM的贡献

配置F-measureMAE
Baseline0.8810.0425
+ CEFM0.8970.0370
改进+1.6%-13%

Bi-MFIM的贡献

配置F-measureMAE
Baseline0.8810.0425
+ Bi-MFIM0.9040.0357
改进+2.3%-16%

两者结合效果最佳

配置F-measureMAE
Baseline0.8810.0425
+ CEFM + Bi-MFIM0.9100.0326
改进+2.9%-23%

融合位置的选择

论文测试了在不同层级进行跨模态融合的效果,发现在第3层融合(中间层)达到最佳平衡:

  • 太早融合(第1-2层):性能不足
  • 太晚融合(第4-5层):参数增多但性能提升有限
  • 第3层融合:性能与效率的最佳平衡点

技术亮点总结

1. 设计哲学的转变

  • ❌ 传统思路:密集融合、大力出奇迹
  • ✅ LCT思路:精准交互、事半功倍

2. 注意力机制的创新

  • LCCAB:通道维度注意力,节省98%计算

  • LSCAB:降维空间注意力,节省97%计算

3. 架构设计的智慧

  • 中间层融合:参数最优点
  • 双向交互:互补信息最大化

局限性与未来工作

论文诚实地指出了当前的局限:

  1. 计算复杂度仍有优化空间

    • 虽然参数少,但FLOPs相对其他轻量级模型仍较高
    • 某些耗时操作(如concatenation)影响速度
  2. 未来改进方向

    • 进一步简化网络结构
    • 减少耗时操作
    • 探索更高效的注意力机制

实践启示

这篇论文给我们的启示:

  1. 减参不一定牺牲性能

    • 关键在于如何更有效地利用信息
    • 精心设计的轻量模块可以弥补参数减少
  2. 注意力机制的维度选择很重要

    • 通道注意力 vs 空间注意力
    • 根据特征图尺寸灵活选择
  3. 交互胜过聚合

    • 双向特征交互比单向聚合更有效
    • 先增强再融合比直接融合更好
  4. 中间层融合是个好策略

    • 在轻量级模型设计中值得考虑
    • 兼顾低层细节和高层语义

结语

这篇论文为RGB-D显著性检测领域带来了一股清流——不是所有问题都需要用更大的模型来解决。通过巧妙的结构设计和高效的模块,LCT实现了:

  • 🎯2.8M参数:业界最小
  • 66 FPS:实时运行
  • 🏆竞争性能:媲美重量级模型

这不仅是技术上的创新,更是设计理念的突破。对于需要在资源受限设备上部署RGB-D视觉算法的场景(如移动机器人、智能手机、车载系统),LCT提供了一个极具实用价值的解决方案。

关键启发:有时候,"少即是多"——用更少的参数做更多的事,关键在于找到信息利用的最优策略。

如果你对轻量级深度学习模型设计感兴趣,这篇论文绝对值得深入研究!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/14 5:35:33

10个高效降AI率工具,本科生必备!

10个高效降AI率工具,本科生必备! AI降重工具:让论文更自然,让学术更安心 在当今的学术环境中,随着人工智能技术的广泛应用,许多本科生在撰写论文时都会遇到一个共同的问题——**AIGC率过高**。这不仅可能影…

作者头像 李华
网站建设 2026/4/12 4:43:01

KindEditor导入excel表格数据保留格式到OA系统

震惊!程序员接单竟发现致富新大陆?! 大家好,我是北京某不知名.NET程序员小王。最近接了个CMS企业官网项目,客户说要加个Word一键粘贴功能,要求还挺多: 要支持Office全家桶导入公式转换要高级&…

作者头像 李华
网站建设 2026/4/13 18:29:48

HTML5利用Vue2实现大文件分片上传的进度监控界面?

大文件上传方案探索:从WebUploader到自定义分片上传的实践 作为一名前端开发工程师,最近遇到了一个颇具挑战性的需求:需要在Vue项目中实现4GB左右大文件的稳定上传,且要兼容Chrome、Firefox、Edge等主流浏览器,后端使…

作者头像 李华
网站建设 2026/4/15 10:21:55

基于Matlab的改进人工势场法路径规划探究

基于matlab实现改进的人工势场法,apf算法进行路径规划,通过改进斥力函数和引入模拟退火算法,克服局部极小值和目标不可达问题。 并附送未改进的apf算法,可做改进与未改进的效果比对使用,如图,未改进的算法会…

作者头像 李华