| 书名 | ForgeLens: Data-Efficient Forgery Focus for Generalizable Forgery Image Detection |
|---|---|
| 作者 | Yingjian Chen, Lei Zhang, Yakun Niu*, Henan Key Laboratory of Big Data Analysis and Processing, Henan University |
| 简介 | 这篇文章介绍了一种名为ForgeLens的通用伪造图像检测框架,与clip相关 |
一、研究背景和动机
- 挑战:AIGC生成高度逼真的伪造图像,威胁社会安全。
- 现有方法局限性
1). 专用检测方法:它们在检测训练集中见过的生成模型图像时能达到高精度,但由于不同生成模型会产生独特的伪影,这些完全从头训练的模型容易对训练集过拟合,导致在面对未见过的合成图像时性能显著下降,泛化能力有限。此外,这些方法通常需要大量训练数据才能达到最佳性能。【颜色、频域、空间域之类的】
2). 冻结网络的方法:它们使用预训练网络提取通用图像特征,在训练时冻结网络权重,只训练一个线性分类器。这可以防止过拟合并确保高泛化性。然而,通用图像特征通常包含过多的与伪造无关的信息,使得分类器难以区分真假图像,从而导致检测精度有限。
图中显示,冻结的CLIP-ViT模型提取的特征,在特征空间中主要是按照图像的内容类别(比如车、猫、椅子、马)聚类的,而不是按照图像的真伪聚类的。这意味着,对于CLIP-ViT来说,“一张真实的猫图”和“一张由AI生成的假猫图”在特征上可能更相似(因为它们都是“猫”),而不是“一张真实的猫图”和“一张真实的汽车图”更相似。这直观地证明了其提取的通用特征对于真伪判断任务来说是区分度不足的。
二、贡献
- 作者提出了一种新颖的、基于特征引导的CLIP-ViT框架用于伪造图像检测,该框架名为ForgeLens,旨在确保强大的泛化能力同时保持高检测精度。
- 作者引入了轻量级的权重共享引导模块和伪造感知特征集成器,使冻结的预训练CLIP-ViT能够在训练过程中聚焦于伪造特定特征。这有效地解决了CLIP-ViT提取的通用图像特征包含过多伪造无关信息的局限性。
- 作者证明了ForgeLens的有效性和数据效率。该方法在UniversalFakeDetect数据集上超越了最先进的方法,并且即使在训练数据极其有限的情况下也能保持优越的性能,突显了其强大的数据效率。
三、方法
总体思路:特征引导框架,使冻结的预训练网络聚焦于伪造特定特征。
1. 权重共享引导模块(WSGM)
1.1 设计动机
标准ViT中,多头自注意力模块负责捕获全局特征,多层感知机(MLP)模块对特征进行细化和非线性转换。为了以最少的可训练参数,引导冻结的ViT聚焦于伪造特定特征,作者引入了可训练的WSGM模块。
ViT基础原理补充(全局特征捕获逻辑):
- 图像分块嵌入:将输入图像分割成固定大小的图像块(例如 16×16),每个块展平为向量后,通过线性投影转换为“图像块嵌入”(类似NLP中的词嵌入);
- 位置编码:为图像块嵌入添加位置编码,保留图像的空间位置信息;
- Transformer编码器:将嵌入序列输入标准Transformer编码器,通过多层自注意力机制+前馈网络,学习图像块之间的全局依赖关系;
- 分类输出:在嵌入序列前添加特殊的“类别嵌入”,最终基于该嵌入的输出完成图像分类。
1.2 WSGM核心设计细节
(1)定位与插入位置
WSGM被精准插入到冻结ViT块的特定节点,标准ViT块的数据流顺序为:输入 → 层归一化 → 多头自注意力 → 【WSGM】 → 层归一化 → 多层感知机 → 输出
WSGM仅作用于多头自注意力输出后、MLP处理前,是特征细化前的关键引导环节。
(2)瓶颈结构处理逻辑
当特征z l z_lzl从多头自注意力模块输出后,会送入WSGM的“压缩-聚焦-扩展”瓶颈结构处理:
- 压缩:通过线性层W e x p W_{exp}Wexp将高维特征z l z_lzl投影到低维中间空间,迫使网络聚焦核心信息;
- 非线性激活与聚焦:低维特征经ReLU激活后,通过核心线性层W m i d W_{mid}Wmid学习——该层是“伪造特征聚焦”的关键,训练中会增强伪造相关特征模式,抑制无关信息;
- 扩展:处理后的特征通过线性层W c o m W_{com}Wcom投影回原始维度;
- 完整公式:$ WSGM(z) = W_{com} · ReLU(W_{mid} · ReLU(W_{exp} · z)) $
(3)残差连接
WSGM变换后的特征W S G M ( z l ) WSGM(z_l)WSGM(zl)与原始特征z l z_lzl相加,得到增强特征:
$ z_l’ = WSGM_k(z_l) + z_l $
- 作用:保证信息顺畅流动、防止梯度消失,让WSGM仅需学习“伪造特征增量”,无需重构全部特征。
(4)权重共享机制
“Weight-Shared”核心是同一WSGM实例复用至多个连续ViT块,而非为每个ViT块配置独立WSGM。
- 优势:大幅减少可训练参数数量,是实现“数据高效”的核心设计。
(5)通俗解释
CLIP-ViT如同“全能学霸”,原本关注图像内容(猫/狗/场景等通用特征),但伪造检测需要它聚焦“造假细节”:
- 不能修改“学霸”已掌握的知识(冻结ViT权重),只能在其思考过程中加“引导”;
- WSGM是一副“特制眼镜”,戴在“学霸”完成“全局观察”(自注意力)后、“深度加工”(MLP)前;
- 这副眼镜先精简信息(降维压缩),再标亮“造假线索”(W m i d W_{mid}Wmid层),最后还原信息维度;
- 多层共享同一副“眼镜”,仅训练少量参数就能引导聚焦伪造特征,效率极高。
2. 伪造感知特征集成器(FAFormer)
2.1 核心原理
提出FAFormer模块,提炼ViT多阶段特征(低层细节+高层语义)中的伪造相关信息,解决单一阶段特征信息不全的问题。
2.2 具体实现步骤
- 特征拼接:收集冻结ViT各阶段输出的CLS令牌C L S i ∈ R D CLS_i ∈ R^DCLSi∈RD,与新增的Focus CLS令牌C L S f o c u s ∈ R D CLS_{focus} ∈ R^DCLSfocus∈RD拼接,形成复合表示:
$ c_0 = [CLS_{focus}; CLS_1; CLS_2; … ; CLS_N] $- Focus CLS令牌:作为全局表征,负责整合所有阶段的伪造特征。
- Transformer特征融合:FAFormer遵循标准ViT块架构,处理过程为:
c l ′ = MHSA ( LN ( c l − 1 ) ) + c l − 1 c l = MLP ( LN ( c l ′ ) ) + c l ′ \begin{align} c_l' &= \text{MHSA}\bigl(\text{LN}(c_{l-1})\bigr) + c_{l-1} \\ c_l &= \text{MLP}\bigl(\text{LN}(c_l')\bigr) + c_l' \end{align}cl′cl=MHSA(LN(cl−1))+cl−1=MLP(LN(cl′))+cl′
其中,c l ′ c_l'cl′、c l c_lcl分别为标准ViT块l ll中MHSA和MLP模块的输出特征。 - 融合效果:通过自注意力机制,整合捕捉细微纹理/伪影的低层特征、编码语义/结构的高层特征,增强伪造线索的表征能力。
(5)通俗解释
ViT各层对图像的理解深度不同,伪造检测需要“细节+语义”双线索:
- 浅层(第1/2层):能看到纹理异常(如毛发边缘不自然);
- 深层(最后几层):能识别语义不合理(如人脸结构异常);
- FAFormer相当于“总结大会”:
- 每层派出“代表”(CLS令牌),新增“大会主席”(Focus CLS令牌);
- 所有代表与主席进入FAFormer“开会”,通过自注意力交换信息;
- 最终“主席”整合所有线索,形成判断图像真伪的核心特征。
3. 整体实操流程
- 基础特征提取:采用冻结的预训练CLIP-ViT作为编码器,将图像分块生成特征序列+CLS令牌(权重全程冻结,保证泛化性);
- 伪造特征引导:在多个Transformer块的“自注意力输出后”插入WSGM,通过“压缩-聚焦-扩展”引导网络关注伪造特征(多块共享WSGM权重,减少参数);
- 多阶段特征集成:将各阶段CLS令牌与Focus CLS拼接,送入FAFormer融合低层细节+高层语义,提炼全面的伪造感知特征;
- 最终分类:将优化后的Focus CLS令牌送入线性分类器,完成真伪判别。
核心目标:冻结主干保证泛化能力,轻量可训练模块聚焦伪造特征,兼顾“高泛化”与“高精度”。
四、实验和评估
- 主要评估数据集:UniversalFakeDetect
这是实验部分的核心评估基准。该数据集是一个大规模基准,旨在评估伪造检测模型在不同生成技术间的泛化能力。它包含由19种不同生成模型生成的图像子集,涵盖了GAN和扩散模型。具体模型包括ProGAN、StyleGAN、BigGAN、CycleGAN、StarGAN、GauGAN、Deepfake、CRN、IMLE、SAN、SITD、Guided diffusion model、LDM、Glide、DALL-E等。每个子集都包含真实和伪造图像。实验报告了在该数据集所有子集上的平均准确率和平均精度。
- 补充评估数据集:GenImage
在附录的对比实验中,使用了GenImage数据集进行额外验证。该数据集包含八个子集,分别由不同的生成模型(包括AMD、BigGAN、GLIDE、Midjourney、Stable Diffusion V1.4 & V1.5、VQDM、Wukong)生成。实验使用其中的SDv1.4子集进行训练,并在所有测试集上进行评估。
- 训练数据集
为了确保公平比较,模型训练仅使用ProGAN生成的图像,具体是ForenSynths数据集的4类子集。为了突出数据效率,训练集被进一步划分为1%、4%、20%、50%和100%的比例。