news 2026/4/16 14:23:37

即插即用系列 | CVPR 2025 DICMP:基于深度信息辅助的图像去雾与深度估计双任务协同互促网络

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
即插即用系列 | CVPR 2025 DICMP:基于深度信息辅助的图像去雾与深度估计双任务协同互促网络

论文标题:Depth Information Assisted Collaborative Mutual Promotion Network for Single Image Dehazing

论文原文 (Paper):https://arxiv.org/pdf/2403.01105
代码 (code):https://github.com/zhoushen1/DCMPNet


GitHub 仓库链接(包含论文解读及即插即用代码):https://github.com/AITricks/AITricks
哔哩哔哩视频讲解:https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

目录

      • 1. 核心思想
      • 2. 背景与动机
        • 2.1 文本背景总结
        • 2.2 动机图解分析
      • 3. 主要创新点
      • 4. 方法细节
        • 4.1 整体网络架构
        • 4.2 核心创新模块详解:双任务交互模块 (DTI)
        • 4.3 理念与机制总结
        • 4.4 图解总结
      • 5. 即插即用模块的作用
      • 6. 实验部分简单分析
      • 7. 获取即插即用代码关注 【AI即插即用】

1. 核心思想

本文提出了一种名为DICMP (Depth Information Assisted Collaborative Mutual Promotion)的双任务框架,旨在解决单幅图像去雾中结构信息丢失和深度感知不足的问题。其核心思想是构建一个去雾与深度估计的闭环系统:一方面,利用双任务交互模块(DTI)将深度特征注入去雾网络以辅助物理模型建模;另一方面,提出差异感知机制(Difference Perception),利用“去雾后图像的预测深度”与“真实深度”之间的差异,反向监督去雾网络,迫使其重点关注那些深度估计不准(通常也是雾最浓、最难恢复)的区域。


2. 背景与动机

2.1 文本背景总结

单幅图像去雾是一个典型的不适定(Ill-posed)问题。

  • 物理基础:根据大气散射模型I ( x ) = J ( x ) t ( x ) + A ( 1 − t ( x ) ) I(x) = J(x)t(x) + A(1-t(x))I(x)=J(x)t(x)+A(1t(x)),其中透射率t ( x ) = e − β d ( x ) t(x) = e^{-\beta d(x)}t(x)=eβd(x)直接取决于场景深度d ( x ) d(x)d(x)
  • 现有问题
    1. 单向依赖:现有方法大多只把深度估计作为去雾的前处理,忽略了去雾后的清晰图像反过来能显著提升深度估计的精度。
    2. 缺乏物理约束:纯 End-to-End 的去雾网络往往容易丢失几何结构信息,导致去雾后物体边缘模糊或景深关系错乱。
    3. 难点区域忽视:浓雾区域(通常是远处)既难去雾也难估计深度,传统 Loss 容易在这些区域“躺平”。
2.2 动机图解分析

看图说话与痛点分析

  • 物理联系:如图所示,雾的分布与深度图(Depth Map)高度相关。近处(蓝色/黑色)雾淡,远处(红色/白色)雾浓。
  • 闭环逻辑
    • 如果去雾做得好(恢复了清晰纹理),那么从这张图估计出的深度应该非常准确(接近 GT)。
    • 反之,如果某块区域去雾失败(还有残留雾),那么深度估计网络会误以为这里很远或很平滑,导致深度预测误差大。
    • 本文核心突破:利用这个逻辑,作者设计了一个“差异感知器”,计算D e p t h ( D e h a z e d _ I m g ) Depth(Dehazed\_Img)Depth(Dehazed_Img)D e p t h ( G T ) Depth(GT)Depth(GT)的差值。这个差值就像一个注意力图(Attention Map),告诉去雾网络:“看,这块区域的深度估计错了,说明你雾没去干净,重做!”从而解决了复杂区域的去雾难题。

3. 主要创新点

  1. 差异感知机制 (Difference Perception):这是最大亮点。构建了一种基于下游任务(深度估计)反馈的损失函数,利用深度差异显式地指导去雾网络关注非理想区域。
  2. 双任务交互模块 (Dual-task Interaction, DTI):设计了一种特征级的融合模块,实现了去雾分支与深度估计分支之间的双向信息流动,而非简单的拼接。
  3. 交替实施机制 (Alternative Implementation):为了稳定训练,采用了交替优化的策略,协同提升两个任务的性能,实现了1 + 1 > 2 1+1>21+1>2的效果。

4. 方法细节

4.1 整体网络架构

数据流详解
网络包含两条并行的主线:去雾分支 (Dehazing Branch)深度估计分支 (Depth Estimation Branch)

  1. 输入 (Input):有雾图像I II
  2. 特征提取与交互
    • I II分别送入去雾编码器和深度编码器。
    • 在编码器的不同层级,通过DTI 模块交换特征。去雾特征帮助深度网络看清结构,深度特征帮助去雾网络理解景深。
  3. 初步输出
    • 去雾分支输出初步去雾图像J c o a r s e J_{coarse}Jcoarse
    • 深度分支输出初步深度图D c o a r s e D_{coarse}Dcoarse
  4. 核心闭环:差异感知 (Difference Perception)
    • 将初步去雾图像J c o a r s e J_{coarse}Jcoarse再次送入一个(预训练或共享权重的)深度估计网络,得到预测深度D p r e d _ J D_{pred\_J}Dpred_J
    • 计算D p r e d _ J D_{pred\_J}Dpred_J与真实深度D g t D_{gt}Dgt之间的差异图(Diff Map)。
  5. 精炼与输出 (Output)
    • 这个差异图被用作权重或 Loss 的一部分,回传给去雾网络,优化生成最终的J f i n a l J_{final}Jfinal
    • 同理,去雾后的清晰特征也反馈给深度网络,输出最终的D f i n a l D_{final}Dfinal
4.2 核心创新模块详解:双任务交互模块 (DTI)

这是一个即插即用的特征融合组件。

  • 内部结构
    • 输入:去雾特征F d e h a z e F_{dehaze}Fdehaze和深度特征F d e p t h F_{depth}Fdepth
    • 处理流
      1. 通道注意力 (Channel Attention):先对各自的特征进行加权,强调重要通道。
      2. 交叉融合:将F d e p t h F_{depth}Fdepth经过变换后加到F d e h a z e F_{dehaze}Fdehaze上,反之亦然。这里通常使用1 × 1 1 \times 11×1卷积来对齐通道数。
      3. 自适应门控:可能包含一个门控机制(Sigmoid),学习“传多少信息给对方”。
  • 设计目的
    让两个网络不再是孤岛。在浅层,深度网络分享边缘信息给去雾;在深层,深度网络分享全局距离信息给去雾,帮助去雾网络区分“白色的墙”和“白色的雾”。
4.3 理念与机制总结

DICMP 的核心理念是“任务协同与反馈 (Collaboration & Feedback)”

  • 机制:它模拟了人类的认知过程——我们看清楚了物体(去雾),才能判断得准距离(深度);如果我们发现距离判断错了(撞到了东西),我们会意识到刚才没看清楚(去雾修正)。
  • 公式解读
    L o s s t o t a l = L d e h a z e ( J , J g t ) + L d e p t h ( D , D g t ) + λ L d i f f ( N e t d e p t h ( J ) , D g t ) Loss_{total} = L_{dehaze}(J, J_{gt}) + L_{depth}(D, D_{gt}) + \lambda L_{diff}(Net_{depth}(J), D_{gt})Losstotal=Ldehaze(J,Jgt)+Ldepth(D,Dgt)+λLdiff(Netdepth(J),Dgt)
    其中第三项L d i f f L_{diff}Ldiff就是差异感知损失,它是连接两个任务的桥梁。
4.4 图解总结

回到动机图解

  • DTI 模块解决了“物理联系”利用不足的问题,让深度图直接参与去雾计算。
  • 差异感知机制解决了“难点区域忽视”的问题。在图 1 中,如果远处的树去雾不干净,深度估计就会出错,产生的L d i f f L_{diff}Ldiff就会变大,强制网络在下一轮训练中“盯着”远处的树优化。

5. 即插即用模块的作用

本文提出的思想和模块具有很好的扩展性:

  • 差异感知机制 (Difference Perception) 的应用
    • 适用场景:任何存在上下游关系的任务对。例如:
      • 去雨 + 语义分割:用分割网络的预测误差来指导去雨网络(雨没去干净会导致分割边缘错误)。
      • 超分 + 目标检测:用检测器的 Confidence Loss 来指导超分网络恢复物体纹理。
  • 双任务交互模块 (DTI) 的应用
    • 多模态融合:RGB-D 显著性检测、RGB-T(红外)目标跟踪。
    • 联合任务:同时做分割和深度估计(如 UberNet 风格的架构)。

6. 实验部分简单分析

论文在SOTSNYU Depth v2数据集上进行了验证。

  1. 去雾性能 (Dehazing Performance)

    • 在 SOTS 测试集上,DICMP 取得了SOTA 的 PSNR/SSIM指标。
    • 定性对比:视觉效果上,DICMP 在天空区域(高亮、远距离)和物体遮挡边缘处的去雾效果明显更自然,伪影更少。这得益于深度信息的约束,避免了颜色失真。
  2. 深度估计性能 (Depth Estimation)

    • 不仅去雾好了,深度估计的 RMSE 也降低了。证明了清晰的图像确实能反哺深度估计任务。
  3. 消融实验 (Ablation Study)

    • 去掉Difference Perception后,去雾指标下降明显,证明了“反馈机制”是提升性能的关键,而不仅仅是多任务学习带来的增益。
    • 去掉DTI,两边性能都下降,证明了特征交互的必要性。

总结:DICMP 是一篇非常优秀的Multi-task Learning for Restoration论文。它没有堆砌复杂的 Transformer 模块,而是通过巧妙的任务设计(差异感知反馈),利用物理规律(雾与深度的对偶性)解决了实际问题。对于做Low-level Vision结合High-level/Mid-level Vision的同学,这篇论文提供了非常棒的“闭环反馈”设计思路。

到此,所有的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

7. 获取即插即用代码关注 【AI即插即用】

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/14 20:16:07

傅里叶变换(三)调制与载波

调制(modified)是指一个信号控制或改变另一个信号。比如……想象一下你有一个载波(carrier wave),规律稳定的振荡,然后你根据另一个信号改变它的特性。 所以,“f(t)f(t)f(t) 由 sin⁡(ωt)\sin(…

作者头像 李华
网站建设 2026/4/13 13:04:55

西门子1200 PLC大型项目程序:生产线控制案例全解析

西门子1200PLC大型项程序,生产线生产案例,包含气缸,通讯,机械手,模拟量等,各种FB块,可用来参考和学习。 若能学懂这个,大型程序基本能独当一面 plc博图15以及以上,威纶通…

作者头像 李华
网站建设 2026/4/14 2:03:47

使用TensorRT优化MiniMax、GLM等国产大模型

使用TensorRT优化MiniMax、GLM等国产大模型 在当前生成式AI迅猛发展的背景下,国产大语言模型如MiniMax、智谱AI的GLM系列已逐步具备与国际主流模型媲美的语义理解与生成能力。然而,当这些参数量动辄数十亿甚至上百亿的模型走向实际部署时,一个…

作者头像 李华
网站建设 2026/4/14 1:41:17

构建弹性伸缩AI集群:TensorRT节点资源调度策略

构建弹性伸缩AI集群:TensorRT节点资源调度策略 在当今的AI服务场景中,用户对响应速度和系统稳定性的要求越来越高。从电商推荐系统的毫秒级响应,到自动驾驶中的实时感知决策,再到智能客服的高并发对话处理——这些应用背后都依赖着…

作者头像 李华
网站建设 2026/4/13 16:11:28

使用TensorRT优化Stable Diffusion XL图像生成速度

使用TensorRT优化Stable Diffusion XL图像生成速度 在当今生成式AI飞速发展的背景下,Stable Diffusion XL(SDXL)这类高保真文本到图像模型正逐步从研究走向生产部署。设计师、内容创作者乃至企业级应用都对“秒级出图”提出了明确需求——用户…

作者头像 李华
网站建设 2026/4/16 13:59:35

基于TensorRT的实时翻译系统性能优化案例

基于TensorRT的实时翻译系统性能优化案例 在一场国际线上会议中,发言者刚说完一句话,参会者的耳机里几乎立刻响起了流畅的母语翻译——没有卡顿、没有延迟,仿佛有人在背后实时同声传译。这种“即时可懂”的体验背后,是自然语言处理…

作者头像 李华