news 2026/4/25 8:47:13

2. 假新闻检测 - 《FakingRecipe: Detecting Fake News on Short Video Platforms from the Perspective of ...》

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
2. 假新闻检测 - 《FakingRecipe: Detecting Fake News on Short Video Platforms from the Perspective of ...》

前言

本文阅读论文《FakingRecipe: Detecting Fake News on Short Video Platforms from the Perspective of Creative Process》。现有的假新闻检测方法主要侧重于分析所呈现内容,而文章的实证分析揭示了假新闻视频在素材选择和编辑方面的独特特征。

核心内容细节
问题现有检测方法多从“内容本身”出发,分析多模态内容的真实性或多模态一致性。然而,由于短视频易于编辑和重新利用,这些方法容易被“重新编辑”或“二次创作”的内容误导。
动机作者提出从 “新闻视频是如何创作的” 这一角度出发,分析假新闻的制作过程。假新闻创作者通常缺乏一手真实材料和专业编辑技能,但仍为特定目的制作虚假内容。在素材选择方面,假新闻常使用情绪化的音频、语义不一致的视觉素材等。在素材编辑方面,假新闻在空间布局(如文本叠加)和时间剪辑(如片段拼接)上往往较为简单粗糙。
观察统计结果证实,真实和虚假新闻视频在素材选择和编辑方面存在统计差异。例如,与真实视频相比,假新闻视频倾向于选择更具情感色彩的音乐,使用有限的色调,并采用不那么动态的屏幕文本呈现。
方法FakingRecape 设计了一个双分支网络,素材选择感知建模(MSAM)模块通过注意力提取多模态特征,以捕捉音频和文本之间的情感共鸣、文本和视觉之间的语义相关性。素材编辑感知建模(MEAM)模块通过分析视觉区域和屏幕文本以进行空间编辑,同时构建层次化的时间结构。最终,整合两个分支的预测以获得最终预测。

文章目录

  • 前言
  • 一、统计观察
    • 1. 假新闻的素材选择
      • 1.1. 观察1:假新闻倾向于选择更具情绪感染力的音频
      • 1.2. 观察2:假新闻视觉材料与文本的语义一致性较低
    • 2. 假新闻的素材编辑
      • 2.1. 观察3:假新闻在叠加文本时倾向于使用较为单调的文本视觉效果
      • 2.2. 观察4:假新闻在时间剪辑上倾向于采用相对简单的片段排列方式
  • 二、核心方法
    • 1. 总框架
    • 2. 实现细节
      • 2.1. Two-Way Attention
      • 2.2. 时间编辑建模
  • 总结

一、统计观察

1. 假新闻的素材选择

1.1. 观察1:假新闻倾向于选择更具情绪感染力的音频

  • 方法:使用经过情感分类微调的 wav2vec 模型对音频情感进行分析。
  • 发现:假新闻视频更倾向于使用情感强烈的音频(如图2所示)。
  • 解释:情感强烈的内容更容易引发分享行为,假新闻创作者可能故意选择情绪化的音频以增强观众参与度和传播效果

1.2. 观察2:假新闻视觉材料与文本的语义一致性较低

  • 方法:使用 CLIP 模型提取文本和视觉特征,计算二者之间的 JS 散度 作为一致性指标,值越低表示一致性越高。
  • 发现:假新闻视频的文本与视觉内容之间的语义一致性显著低于真实新闻(如图3所示)。
  • 解释:由于假新闻往往缺乏相关的一手视频素材,创作者不得不使用从网络上收集的、与文本主题不完全匹配的历史素材,导致语义不一致。

2. 假新闻的素材编辑

2.1. 观察3:假新闻在叠加文本时倾向于使用较为单调的文本视觉效果

  • 定义:空间编辑行为主要指在原视频画面上叠加额外的图层,如文本、贴纸等。文章重点分析文本叠加这一常见操作(在 FakeSV 数据集中占 85%)。
  • 方法:通过量化文本区域的颜色丰富度来比较真假新闻视频。
  • 发现:真实新闻视频在文本呈现上使用更丰富的颜色,而假新闻视频更倾向于使用单色或颜色简单的文本(如图4所示)。
  • 解释:真实新闻创作者通常遵循编辑规范,注重呈现质量;假新闻创作者可能缺乏专业制作知识,忽略这些细节对观众感知的影响。

2.2. 观察4:假新闻在时间剪辑上倾向于采用相对简单的片段排列方式

  • 定义:时间编辑行为主要指对多个素材片段进行重组与拼接。文章重点分析文本曝光的时间动态性。
  • 方法:定义了一个衡量文本呈现的动态程度的指标 ,曝光时间短且变化大则动态性高。
  • 发现:真实新闻视频的文本呈现更具动态性,而假新闻视频的文本呈现较为静态、单调(如图5所示)。
  • 解释:真实新闻创作者通常具备专业媒体训练,更擅长将文本与视觉元素动态结合;假新闻内容通常较为单薄,缺乏足够的信息支撑复杂的动态呈现,因此倾向于在屏幕特定区域静态放置有限信息。

二、核心方法

1. 总框架


情感角度建模:文章认为情感表达主要来自音频和文本语调,因此用 HuBERT 编码器提取音频情感特征,用 XLM-RoBERTa 编码器提取文本情感特征,将两者拼接后,输入一个 Transformer 层,通过自注意力机制融合,得到统一的情感特征表示;

语义角度建模:文章认为视觉和文本内容在语义传递中起主导作用,音频(BGM)作用较小。因此,用 CLIP 分别提取文本语义特征和视频关键帧中的视觉语义特征,然后用协同注意力得到视觉增强的文本特征、文本增强的视觉特征 ,最后对上述特征拼接,再输入一个 Transformer 层,得到统一的语义特征表示;

预测输出: 拼接情感特征和语义特征,并输入一个两层 MLP,得到从素材选择角度出发的假新闻预测分数;

空间编辑建模:为分析视频中文本叠加的视觉特征,选取文本区域最大的帧作为代表性帧,并用 VIT 编码。同时,用 CRAFT(OCR 检测模型) 定位文本区域,再用 SAM 将文本区域转换为提示嵌入。然后,设计 Two-Way Attention 块,进行“提示→图像”和“图像→提示”的双向注意力交互,增强对文本区域的关注,得到更新后的视觉编码。最后,通过两层卷积进行下采样并展平,得到空间模式特征;

时间编辑建模:分析文本片段与视频片段的时间排列结构。文章忽略背景音乐,分别提取文本序列和视觉序列的片段特征 Seg。对于文本,拼接后统一编码;对于视觉,使用自注意力机制融合多个帧并取平均。然后,分别计算两个模态片段的位置编码 PE 和时长编码 DE。最后,对于每个模态,计算每个片段的三个特征的和,并用自注意力机制融合所有片段特征,得到时间模式特征;对于模态之间,用 Transformer 层融合得到统一的时间编辑特征;

预测输出: 拼接空间特征和时间特征,并输入一个两层 MLP,得到从素材编辑角度出发的假新闻预测分数;
最终输出:tanh 起到了一个软权重的作用,若 MEAM 模块对某视频的编辑特征非常确信,则会显著放大或缩小 MSAM 的预测,先前工作证明这种融合方式能增强模型的表达能力。

2. 实现细节

2.1. Two-Way Attention

  • 提示自注意力:让不同的文本区域提示之间进行交互,理解它们之间的空间关系。
  • 交叉注意力:图像到提示以图像特征为 Q,增强图像中对文本区域的响应;提示到图像以提示为 Q,找出与文本提示最相关的视觉上下文

2.2. 时间编辑建模

  • 位置编码:RoPE
  • 时间编码:将时长值映射到预定分组,根据分组编号检索对应可学习嵌入向量,再拼接绝对和相对时长嵌入表。

    其中,绝对时长 = 结束帧和起始帧的片段索引差,相对时长 = 绝对时长占总视频帧比例:

总结

文章的局限性如下:

  • 观察缺乏理论基础:模型设计主要基于对数据集的统计分析,未能完全对应或融入新闻学、传播学中关于虚假信息创作的理论知识,这可能导致模型对“创作过程”的理解不够本质和深刻。
  • 创作特征需要持续更新:随着造假者技术的演进和策略的变化,当前模型捕捉到的“创作特征”可能会过时,因此模型在现实应用中可能需要定期更新以保持效力。
  • 未探索大模型的深度结合:实验部分虽然测试了 GPT-4 的零样本性能,但并未深入探索如何将本文提出的“创作过程感知”能力与强大的 (M)LLMs 相结合。

未来工作可以从以下几点展开:

  • 与新闻学与传播学进行学科交叉:让“创作过程”的建模建立在关于虚假信息生产动机、条件和策略的理论理解之上,从而提升模型的解释性和泛化能力。
  • 与大型多模态模型的融合:考虑如何将 FakingRecipe 的核心思想(创作过程感知)“装备”给 (M)LLMs。通过提示工程、思维链、适配器微调等高级技术,让 (M)LLMs 具备分析视频创作过程的能力,从而结合 (M)LLMs 的强大通用知识与本方法的领域特定洞察。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 12:03:11

【更新至2024年】1996-2024年各省公路里程数据

【更新至2024年】1996-2024年各省公路里程数据 1、时间:1996-2024年 2、来源:国家统计局、统计年鉴 3、指标:公路里程(万公里) 4、范围:31省 5、指标解释:公路里程指报告期末公路的实际长度…

作者头像 李华
网站建设 2026/4/16 10:57:42

力扣数据库——第N高的薪水

第N高的薪水https://leetcode.cn/problems/nth-highest-salary/ 一 题目 表: Employee Column NameTypeidintsalaryint id 是该表的主键(列中的值互不相同)。该表的每一行都包含有关员工工资的信息。编写一个解决方案查询 Employee 表中第 n 高的不…

作者头像 李华
网站建设 2026/4/23 9:35:52

[特殊字符]_内存管理深度解析:如何避免GC导致的性能陷阱[20260107172234]

作为一名经历过无数性能调优案例的工程师,我深知内存管理对Web应用性能的影响有多大。在最近的一个项目中,我们遇到了一个棘手的性能问题:系统在高并发下会出现周期性的延迟飙升,经过深入分析,发现问题根源竟然是垃圾回…

作者头像 李华
网站建设 2026/4/23 16:42:57

在NEAR Protocol中获取用户账户的完整指南

近年来,随着区块链技术的发展,NEAR Protocol作为一个高效的智能合约平台,吸引了越来越多的开发者和用户。今天,我们将探讨如何在NEAR Protocol中获取用户账户列表,这对开发者来说是一个常见的需求,尤其是在进行用户数据分析或开发用户相关的应用时。 问题背景 在NEAR P…

作者头像 李华
网站建设 2026/4/23 10:33:21

格雷希尔:G15F-KFYK-FD39 定制款快速密封连接器,适配自动化产线,赋能电驱动通讯接口的自动化密封测试

某新能源设备商联系到我们,为其电驱动上的通讯接口采购一批快速密封连接器用于气密性测试,该生产线为自动化产线,对连接器的适配性、稳走性、耐用性均提出了极高要求。格雷希尔定制款 G15F-KFYK-FD39 自动化连接器格雷希尔定制款 G15F-KFYK-F…

作者头像 李华