news 2026/6/9 19:58:45

即插即用系列 | AAAI 2025 Mesorch:CNN与Transformer的双剑合璧:基于频域增强与自适应剪枝的篡改定位

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
即插即用系列 | AAAI 2025 Mesorch:CNN与Transformer的双剑合璧:基于频域增强与自适应剪枝的篡改定位

论文题目:Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation Localization

论文作者:Xuekang Zhu, Xiaochen Ma, et al. (Sichuan University, MBZUAI, etc.)

论文地址:https://arxiv.org/abs/2412.13753

代码地址:https://github.com/scu-zjz/Mesorch


哔哩哔哩视频讲解:https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

目录

      • 1. 核心思想
      • 2. 背景与动机
        • 2.1 文本背景与痛点
        • 2.2 动机图解分析
      • 3. 主要创新点
      • 4. 方法细节
        • 4.1 整体网络架构
        • 4.2 核心创新模块详解
        • 4.3 理念与机制总结
      • 5. 即插即用模块的作用
      • 6. 实验分析
      • 7. 获取即插即用代码关注 【AI即插即用】

1. 核心思想

本文提出了一种名为Mesorch的新型架构,旨在解决图像篡改定位(IML)中单一关注“微观痕迹(如噪声残留)”或“宏观语义(如物体不一致)”的局限性。作者引入了**“介观(Mesoscopic)”**这一物理学概念,主张在介观层面上同时编排微观细节和宏观布局。通过并行结合擅长捕捉微观特征的CNN和擅长提取宏观语义的Transformer,并辅以自适应加权模块和模型剪枝策略,Mesorch 在保持极高效率的同时,在多个基准数据集上刷新了 SOTA 性能。


2. 背景与动机

2.1 文本背景与痛点

图像篡改(如拼接、复制移动、修复)通常会留下人眼难以察觉的痕迹。现有的定位方法主要分为两类:

  • 微观流派(Microscopic):关注底层的信号异常(如RGB噪声、边缘伪影),通常使用 CNN。缺点是容易忽略图像的高层语义,对语义一致的篡改检测乏力。
  • 宏观流派(Macroscopic):关注物体级别的语义异常,通常使用 Transformer。缺点是缺乏捕捉细微边界伪影的能力,导致定位掩膜(Mask)边缘粗糙。

本文动机:绝大多数篡改(约80%)都是针对“物体”的,既改变了语义(宏观),又留下了边缘痕迹(微观)。因此,我们需要一个能同时“看清树木(细节)”和“看清森林(语义)”的介观架构。

2.2 动机图解分析


看图说话(动机分析):

  • 微观视角(结合 Figure 1):图1展示了拼接(Splicing)、复制移动(Copy-move)和修复(Inpainting)。红色箭头指向的区域存在细微的像素级伪影(Artifacts)。这说明微观特征对于发现“哪里不对劲”至关重要
  • 宏观视角(结合 Figure 2):图2展示了随机抽样的篡改图像。红线勾勒出的区域大多是完整的物体(如动物、人)。这说明篡改往往是“面向对象”的,宏观语义对于定位“哪个物体被改了”至关重要
  • 结论:单一视角无法兼顾。Mesorch 的目标就是建立一个“介观”桥梁,将图1的痕迹检测能力和图2的物体识别能力结合起来。

3. 主要创新点

  1. 介观编排架构 (Mesorch):首创性地提出并行使用 CNN 和 Transformer 分别处理高频(微观)和低频(宏观)信息,构建介观表示。
  2. 频域双流增强:利用 DCT(离散余弦变换)分离图像的高频和低频分量,分别作为 CNN 和 Transformer 的增强输入,从源头实现特征解耦。
  3. 自适应加权模块 (Adaptive Weighting Module):拒绝盲目的多尺度融合,设计了一个模块动态学习每个尺度(Scale)的重要性,实现像素级的加权融合。
  4. 二次剪枝策略 (Secondary Pruning):基于自适应权重,剔除贡献度低的尺度分支。这使得模型在推理阶段极其高效,参数量和 FLOPs 大幅降低。

4. 方法细节

4.1 整体网络架构

数据流详解:

  • 输入 (Input):原始 RGB 图像。
  • 频域分离 (DCT Module)
    • 输入图像经过 DCT 变换,分离出高频信息(边缘、噪声)和低频信息(颜色、结构)。
    • 分别与原图拼接,形成高频增强图I h I_hIh低频增强图I l I_lIl
  • 双流并行编码 (Parallel Encoders)
    • 微观流 (Local Feature Module):使用CNN (ConvNeXt)处理I h I_hIh,专注于捕捉微观纹理和伪影。输出 4 个尺度的特征图。
    • 宏观流 (Global Feature Module):使用Transformer (SegFormer)处理I l I_lIl,专注于捕捉宏观物体和语义一致性。同样输出 4 个尺度的特征图。
  • 多尺度解码与融合
    • 两个分支的特征图分别经过解码器,生成 8 个初始预测掩膜(4个来自CNN,4个来自Transformer)。
  • 自适应加权与输出
    • Adaptive Weighting Module计算这 8 个预测图的权重图。
    • 通过加权求和得到最终的篡改定位图P f i n a l P_{final}Pfinal
4.2 核心创新模块详解

模块 A:频域双流特征提取 (Frequency-enhanced Dual Stream)

  • 设计理念:利用频域特性强化模型偏好。
  • 工作机制
    • CNN 分支:吃的是“高频餐”。高频分量突出了图像的噪声模式和边界突变,这正是 CNN 卷积核擅长捕捉的局部特征。
    • Transformer 分支:吃的是“低频餐”。低频分量保留了物体的平滑结构和整体布局,有助于 Transformer 的 Self-Attention 机制建立长距离依赖,理解场景语义。

模块 B:自适应加权模块 (Adaptive Weighting Module)

  • 设计理念:不同尺度的特征贡献度不同。浅层特征定位边缘准,深层特征定位物体准。简单平均会引入噪声。
  • 内部结构
    • 输入:拼接后的 RGB + 高频图 + 低频图(9通道)。
    • 处理:经过一个轻量级网络,输出一个权重张量W ∈ R H 4 × W 4 × 8 W \in \mathbb{R}^{\frac{H}{4} \times \frac{W}{4} \times 8}WR4H×4W×8
    • 作用:它为 8 个尺度的预测图(Local/Global 各4个)分配像素级的权重。这意味着对于某个像素,模型可以决定是更相信 CNN 的判断,还是 Transformer 的判断。

模块 C:基于权重的剪枝 (Pruning based on Weighting)

  • 机制总结
    • 训练完成后,统计每个尺度i ii的平均权重W i ‾ \overline{W_i}Wi
    • 剪枝条件:如果W i ‾ < ϵ \overline{W_i} < \epsilonWi<ϵ(阈值),说明该尺度对结果贡献微乎其微。
    • 结果:直接移除对应的编码器层和解码器分支。实验发现这能大幅减少计算量(FLOPs 减少约 50%)而几乎不损失精度(见 Table 3)。
4.3 理念与机制总结

Mesorch 的核心理念是**“各司其职,按需分配”**。

  • CNN 负责“显微镜”工作(查纹理)。
  • Transformer 负责“望远镜”工作(看语义)。
  • DCT 负责“分发弹药”(分配高低频信息)。
  • 自适应权重负责“指挥调度”(决定听谁的)。

最终,这个系统解决了“只见树木不见森林”或“只见森林不见树木”的问题,完美实现了介观层面的统一。


5. 即插即用模块的作用

  1. DCT 频域增强模块
    • 适用场景:任何涉及细微痕迹检测的任务,如 Deepfake 检测、隐写分析。
    • 应用:在输入网络前,先用 DCT 提取高频残差并拼接到 RGB 图上,通常能显著提升 CNN 对噪声的敏感度。
  2. 自适应多尺度加权 (Adaptive Weighting)
    • 适用场景:所有使用 FPN(特征金字塔)或 U-Net 结构的任务(分割、检测)。
    • 应用:不要直接sumconcat多尺度特征,尝试训练一个小的权重网络来动态融合它们,效果通常优于静态融合。
  3. 基于权重的剪枝策略
    • 适用场景:模型轻量化部署。
    • 应用:训练一个多分支的大模型,通过学习到的权重自动剪掉无用分支,是实现“无痛瘦身”的有效策略。

6. 实验分析

  • SOTA 性能 (Table 1)

    • 在 CASIAv1, Coverage, NIST16, Columbia 四大经典数据集上,Mesorch(特别是剪枝版 Mesorch-P)的 F1 分数均达到或接近最优。
    • 平均 F1:达到了0.7259,显著优于 TruFor (0.6826) 和 CAT-Net (0.6546)。
  • 鲁棒性 (Table 2)

    • 在面对高斯噪声、高斯模糊和 JPEG 压缩攻击时,Mesorch 展现出了极强的稳定性,性能下降幅度远小于对比模型。
  • 效率分析 (Table 3)

    • 剪枝的威力:Mesorch-P(剪枝版)的 FLOPs 仅为64.8 G,不到 MVSS-Net (171 G) 的一半,更是远低于 PSCC-Net (376 G)。参数量也得到了有效控制。这证明了其作为高效 Baseline 的潜力。

总结:Mesorch 是一篇不仅有“新概念”(介观),更有“实战价值”(高精度+低算力)的佳作。它证明了在图像取证领域,暴力堆叠大模型不如精心设计的混合架构有效。

到此,所有的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

7. 获取即插即用代码关注 【AI即插即用】

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 12:42:04

为什么YOLO26配置复杂?保姆级镜像部署教程入门必看

为什么YOLO26配置复杂&#xff1f;保姆级镜像部署教程入门必看 你是不是也遇到过这样的情况&#xff1a;刚下载完YOLO26官方代码&#xff0c;还没开始跑模型&#xff0c;就被一堆环境报错、CUDA版本冲突、依赖包不兼容卡在第一步&#xff1f;明明只想做个目标检测demo&#xf…

作者头像 李华
网站建设 2026/6/10 10:34:39

ESP32 UART外设波特率配置实战:零基础快速上手

以下是对您提供的博文内容进行 深度润色与结构重构后的技术文章 。整体风格已全面转向 真实工程师口吻 教学博主视角 工程现场语境 &#xff0c;彻底去除AI腔、模板感和教科书式罗列&#xff0c;代之以 逻辑递进、经验穿插、痛点直击、代码即讲义 的沉浸式阅读体验。 …

作者头像 李华
网站建设 2026/6/9 23:41:15

个人云盘|基于java+ vue个人云盘系统(源码+数据库+文档)

个人云盘 目录 基于springboot vue个人云盘系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取&#xff1a; 基于springboot vue个人云盘系统 一、前言 博主介绍&#xff1a;✌️大…

作者头像 李华
网站建设 2026/6/10 10:58:10

手把手教你用BSHM镜像做高质量人像抠图

手把手教你用BSHM镜像做高质量人像抠图 你是不是也遇到过这些情况&#xff1a;想给产品图换背景&#xff0c;但PS抠图边缘毛躁&#xff1b;要做直播虚拟背景&#xff0c;但实时抠图总把头发丝漏掉&#xff1b;或者批量处理几十张人像照片&#xff0c;手动抠图一上午就过去了……

作者头像 李华
网站建设 2026/6/10 11:01:05

用Qwen-Image-Layered做创意合成,图层叠加玩法多多

用Qwen-Image-Layered做创意合成&#xff0c;图层叠加玩法多多 你是否曾为一张海报反复修改背景、调整文字位置、替换元素颜色而耗尽耐心&#xff1f;是否想过&#xff0c;如果图像像设计软件一样拥有可独立编辑的图层&#xff0c;那该多好&#xff1f;Qwen-Image-Layered正是…

作者头像 李华
网站建设 2026/6/10 11:01:25

面向PCB制造的AD导出Gerber参数设置指南

以下是对您提供的博文内容进行 深度润色与结构优化后的版本 。本次改写严格遵循您的全部要求: ✅ 彻底去除AI痕迹 :语言自然、专业、有“人味”,像一位资深PCB工程师在技术博客中娓娓道来; ✅ 打破模板化标题体系 :删除所有“引言/核心知识点/应用场景/总结”等刻…

作者头像 李华