news 2026/4/16 10:46:35

【MM25-华南理工】Omni-IML:迈向统一的图像篡改定位

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【MM25-华南理工】Omni-IML:迈向统一的图像篡改定位

文章:Omni-IML: Towards Unified Image Manipulation Localization

代码:暂无

单位:华南理工大学、合合信息股份有限公司、香港中文大学


一、问题背景

当前主流的Image Manipulation Localization(IML)方法大多依赖特定任务设计,仅能在目标场景(如自然图像、文档图像)中发挥作用,跨任务性能严重下滑。若简单将多个IML任务联合训练,又会导致所有任务的性能显著下降——例如部分模型在自然图像篡改检测中表现优异,却无法适配文档图像的边缘特征不明显、目标特征模糊等问题;而针对文档优化的频率-视觉融合方法,在噪声多、多样性高的自然图像中效果大打折扣。

此外,现有方法还面临两大核心痛点:一是过度依赖任务相关的架构设计、输入模态和训练策略,缺乏跨场景适应性;二是不同篡改任务产生的篡改痕迹差异巨大,统一模型难以有效区分。同时,仅实现篡改区域定位缺乏说服力,行业亟需能通过自然语言解释篡改痕迹的可解释性模型,而现有数据集要么覆盖场景有限,要么标注质量不足,无法支撑此类模型的训练。

二、方法创新

Omni-IML通过三大核心模块实现跨任务通用化,并构建高质量数据集与解释模块,形成完整解决方案:

1. 三大核心模块实现统一篡改定位

  • 模态门编码器(Modal Gate Encoder):自动为每个输入样本选择最优编码模态(纯视觉或视觉+频率融合)。通过分析频率特征的噪声水平和粗预测结果的可信度,在文档图像等视觉异常不明显的场景中发挥频率特征优势,在自然图像等复杂噪声场景中规避频率特征的干扰。

  • 异常增强模块(Anomaly Enhancement):通过额外的边界框监督,在训练阶段增强篡改区域特征、抑制噪声。采用检测与分割任务协作的设计,既避免了任务间的参数竞争,又不增加推理阶段的计算负担,有效提取不同图像类型的通用篡改特征。

  • 动态权重解码器(Dynamic Weight Decoder):根据输入图像的特征和篡改类型,自适应选择最优解码器滤波器。通过全局特征与局部特征的交互,为自然图像的边缘异常、文档图像的频率域不连续、伪造人脸的纹理异常等不同篡改痕迹匹配专属解码策略。

2. 高质量数据集与解释模块

  • Omni-273k数据集:采用创新的思维链(chain-of-thoughts)自动标注技术,通过“篡改目标识别→聚焦痕迹描述→自我检查”三步流程,解决多目标篡改标注混淆、弱痕迹标注不准确的问题。数据集包含27.3万张样本,覆盖自然图像、文档、人脸、场景文本四大核心类型,支持单/多目标篡改标注,且采用结构化JSON格式,便于细粒度模型训练与评估。

  • 解释模块(Interpretation Module):将解码器预测的篡改掩码与原始图像融合生成参考视觉提示,输入多模态大语言模型,实现对篡改区域内容、位置、纹理异常、语义矛盾等痕迹的自然语言描述,大幅提升篡改检测的可信度。

三、实验结果

Omni-IML在四大核心IML任务中均取得SOTA性能,且验证了方法的有效性:

1. 跨任务性能表现优异

在自然图像、文档、人脸、场景文本四大类任务的多个基准数据集上,Omni-IML使用单一模型参数,无需任务特定微调,均超越了专门针对各任务优化的现有模型。例如在文档图像篡改定位中,IoU达到0.758,仅比单任务训练时下降1.6个百分点,而传统方法联合训练后的性能下降普遍超过6个百分点。

2. 消融实验验证核心模块价值

  • 移除模态门编码器(w.o. MG):平均IoU下降8.5个百分点;

  • 移除动态权重解码器(w.o. DWD):平均IoU下降10.5个百分点;

  • 移除异常增强模块(w.o. AE):平均IoU下降2.9个百分点;

  • 无任何核心模块的基线模型,平均IoU比Omni-IML低14.2个百分点。

3. 解释能力显著提升

在Omni-273k数据集上,结合参考视觉提示的解释模块,在文本识别、位置定位、痕迹描述等细粒度指标上均优于传统方法,平均分数提升16%-23%,BLEU值最高达到0.360,大幅改善了多模态模型对篡改痕迹的解释准确性。

四、优势与局限

优势

  1. 通用性强:首个能同时在四大核心IML任务中达到SOTA性能的通用模型,无需为不同场景单独部署模型,降低维护成本;

  2. 可解释性好:通过自然语言描述篡改痕迹,解决了传统模型“只定位、不解释”的信任度问题;

  3. 数据集优质:Omni-273k是目前规模最大、覆盖最全面、标注质量最高的可解释IML数据集,为行业研究提供重要支撑;

  4. 实用性高:推理成本与传统单任务模型相当,无需额外计算开销,便于实际部署。

局限

  1. 未覆盖所有极端场景(如极低分辨率图像、复杂混合篡改方式)的验证,跨域泛化能力仍有提升空间;

  2. 解释模块依赖多模态大语言模型,推理速度受限于大模型响应时间,难以满足实时检测场景需求;

  3. 训练过程需要整合多任务数据,数据预处理和标注成本较高,小型团队难以复现。

五、一句话总结

Omni-IML通过模态自适应编码、动态解码与异常增强的创新设计,结合高质量通用数据集与可解释模块,首次实现了单一模型在多场景图像篡改定位任务中的SOTA性能,为统一化、可解释的图像取证技术提供了开创性解决方案。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 10:13:27

C# 多线程:理解与应用线程、线程池及Task类

一、使用线程的理由 1、可以使用线程将代码同其他代码隔离,提高应用程序的可靠性。 2、可以使用线程来简化编码。 3、可以使用线程来实现并发执行。 二、基本知识 1、进程与线程:进程作为操作系统执行程序的基本单位,拥有应用程序的资源&…

作者头像 李华
网站建设 2026/4/16 10:14:49

嵌入式毕业论文(毕设)创新的任务书思路

文章目录 1前言2 如何选题3 选题方向2.1 嵌入式开发方向2.2 物联网方向2.3 移动通信方向2.4 人工智能方向2.5 算法研究方向2.6 移动应用开发方向2.7 网络通信方向3.4 学长作品展示 4 最后 1前言 🥇 近期不少学弟学妹询问学长关于电子信息工程专业相关的毕设选题&am…

作者头像 李华
网站建设 2026/4/15 14:46:00

AI原生应用领域中语义检索的优势与挑战

AI原生应用领域中语义检索的优势与挑战 关键词:AI原生应用;语义检索;自然语言处理;知识图谱;信息检索 摘要:本技术分析聚焦于AI原生应用领域中的语义检索。首先阐述语义检索的概念基础,涵盖其历史发展与问题空间。接着构建理论框架,从第一性原理推导其原理。然后分析…

作者头像 李华
网站建设 2026/4/16 10:13:16

采购必备的供应商管理指南!

在现代供应链体系中,供应商早已不是单纯的“供货方”,而是企业价值链的核心组成部分。采购的本质绝非“一锤子买卖”的筛选,而是贯穿合作全生命周期的培育、管控与价值共创。一套完善的供应商管理体系,能有效规避风险、优化成本、…

作者头像 李华