2. 假新闻检测 - 《FakingRecipe: Detecting Fake News on Short Video Platforms from the Perspective of ...》-编程阁

前言

本文阅读论文《FakingRecipe: Detecting Fake News on Short Video Platforms from the Perspective of Creative Process》。现有的假新闻检测方法主要侧重于分析所呈现内容，而文章的实证分析揭示了假新闻视频在素材选择和编辑方面的独特特征。

核心内容	细节
问题	现有检测方法多从“内容本身”出发，分析多模态内容的真实性或多模态一致性。然而，由于短视频易于编辑和重新利用，这些方法容易被“重新编辑”或“二次创作”的内容误导。
动机	作者提出从 “新闻视频是如何创作的” 这一角度出发，分析假新闻的制作过程。假新闻创作者通常缺乏一手真实材料和专业编辑技能，但仍为特定目的制作虚假内容。在素材选择方面，假新闻常使用情绪化的音频、语义不一致的视觉素材等。在素材编辑方面，假新闻在空间布局（如文本叠加）和时间剪辑（如片段拼接）上往往较为简单粗糙。
观察	统计结果证实，真实和虚假新闻视频在素材选择和编辑方面存在统计差异。例如，与真实视频相比，假新闻视频倾向于选择更具情感色彩的音乐，使用有限的色调，并采用不那么动态的屏幕文本呈现。
方法	FakingRecape 设计了一个双分支网络，素材选择感知建模（MSAM）模块通过注意力提取多模态特征，以捕捉音频和文本之间的情感共鸣、文本和视觉之间的语义相关性。素材编辑感知建模（MEAM）模块通过分析视觉区域和屏幕文本以进行空间编辑，同时构建层次化的时间结构。最终，整合两个分支的预测以获得最终预测。

文章目录

前言
一、统计观察
- 1. 假新闻的素材选择
- - 1.1. 观察1：假新闻倾向于选择更具情绪感染力的音频
  - 1.2. 观察2：假新闻视觉材料与文本的语义一致性较低
- 2. 假新闻的素材编辑
- - 2.1. 观察3：假新闻在叠加文本时倾向于使用较为单调的文本视觉效果
  - 2.2. 观察4：假新闻在时间剪辑上倾向于采用相对简单的片段排列方式
二、核心方法
- 1. 总框架
- 2. 实现细节
- - 2.1. Two-Way Attention
  - 2.2. 时间编辑建模
总结

一、统计观察

1. 假新闻的素材选择

1.1. 观察1：假新闻倾向于选择更具情绪感染力的音频

方法：使用经过情感分类微调的 wav2vec 模型对音频情感进行分析。
发现：假新闻视频更倾向于使用情感强烈的音频（如图2所示）。
解释：情感强烈的内容更容易引发分享行为，假新闻创作者可能故意选择情绪化的音频以增强观众参与度和传播效果

1.2. 观察2：假新闻视觉材料与文本的语义一致性较低

方法：使用 CLIP 模型提取文本和视觉特征，计算二者之间的 JS 散度作为一致性指标，值越低表示一致性越高。
发现：假新闻视频的文本与视觉内容之间的语义一致性显著低于真实新闻（如图3所示）。
解释：由于假新闻往往缺乏相关的一手视频素材，创作者不得不使用从网络上收集的、与文本主题不完全匹配的历史素材，导致语义不一致。

2. 假新闻的素材编辑

2.1. 观察3：假新闻在叠加文本时倾向于使用较为单调的文本视觉效果

定义：空间编辑行为主要指在原视频画面上叠加额外的图层，如文本、贴纸等。文章重点分析文本叠加这一常见操作（在 FakeSV 数据集中占 85%）。
方法：通过量化文本区域的颜色丰富度来比较真假新闻视频。
发现：真实新闻视频在文本呈现上使用更丰富的颜色，而假新闻视频更倾向于使用单色或颜色简单的文本（如图4所示）。
解释：真实新闻创作者通常遵循编辑规范，注重呈现质量；假新闻创作者可能缺乏专业制作知识，忽略这些细节对观众感知的影响。

2.2. 观察4：假新闻在时间剪辑上倾向于采用相对简单的片段排列方式

定义：时间编辑行为主要指对多个素材片段进行重组与拼接。文章重点分析文本曝光的时间动态性。
方法：定义了一个衡量文本呈现的动态程度的指标，曝光时间短且变化大则动态性高。
发现：真实新闻视频的文本呈现更具动态性，而假新闻视频的文本呈现较为静态、单调（如图5所示）。
解释：真实新闻创作者通常具备专业媒体训练，更擅长将文本与视觉元素动态结合；假新闻内容通常较为单薄，缺乏足够的信息支撑复杂的动态呈现，因此倾向于在屏幕特定区域静态放置有限信息。

二、核心方法

1. 总框架

①情感角度建模：文章认为情感表达主要来自音频和文本语调，因此用 HuBERT 编码器提取音频情感特征，用 XLM-RoBERTa 编码器提取文本情感特征，将两者拼接后，输入一个 Transformer 层，通过自注意力机制融合，得到统一的情感特征表示；

②语义角度建模：文章认为视觉和文本内容在语义传递中起主导作用，音频（BGM）作用较小。因此，用 CLIP 分别提取文本语义特征和视频关键帧中的视觉语义特征，然后用协同注意力得到视觉增强的文本特征、文本增强的视觉特征，最后对上述特征拼接，再输入一个 Transformer 层，得到统一的语义特征表示；

③预测输出：拼接情感特征和语义特征，并输入一个两层 MLP，得到从素材选择角度出发的假新闻预测分数；

④空间编辑建模：为分析视频中文本叠加的视觉特征，选取文本区域最大的帧作为代表性帧，并用 VIT 编码。同时，用 CRAFT（OCR 检测模型）定位文本区域，再用 SAM 将文本区域转换为提示嵌入。然后，设计 Two-Way Attention 块，进行“提示→图像”和“图像→提示”的双向注意力交互，增强对文本区域的关注，得到更新后的视觉编码。最后，通过两层卷积进行下采样并展平，得到空间模式特征；

⑤时间编辑建模：分析文本片段与视频片段的时间排列结构。文章忽略背景音乐，分别提取文本序列和视觉序列的片段特征 Seg。对于文本，拼接后统一编码；对于视觉，使用自注意力机制融合多个帧并取平均。然后，分别计算两个模态片段的位置编码 PE 和时长编码 DE。最后，对于每个模态，计算每个片段的三个特征的和，并用自注意力机制融合所有片段特征，得到时间模式特征；对于模态之间，用 Transformer 层融合得到统一的时间编辑特征；

⑥预测输出：拼接空间特征和时间特征，并输入一个两层 MLP，得到从素材编辑角度出发的假新闻预测分数；
⑦最终输出：tanh 起到了一个软权重的作用，若 MEAM 模块对某视频的编辑特征非常确信，则会显著放大或缩小 MSAM 的预测，先前工作证明这种融合方式能增强模型的表达能力。

2. 实现细节

2.1. Two-Way Attention

提示自注意力：让不同的文本区域提示之间进行交互，理解它们之间的空间关系。
交叉注意力：图像到提示以图像特征为 Q，增强图像中对文本区域的响应；提示到图像以提示为 Q，找出与文本提示最相关的视觉上下文

2.2. 时间编辑建模

位置编码：RoPE
时间编码：将时长值映射到预定分组，根据分组编号检索对应可学习嵌入向量，再拼接绝对和相对时长嵌入表。

其中，绝对时长 = 结束帧和起始帧的片段索引差，相对时长 = 绝对时长占总视频帧比例：

总结

文章的局限性如下：

观察缺乏理论基础：模型设计主要基于对数据集的统计分析，未能完全对应或融入新闻学、传播学中关于虚假信息创作的理论知识，这可能导致模型对“创作过程”的理解不够本质和深刻。
创作特征需要持续更新：随着造假者技术的演进和策略的变化，当前模型捕捉到的“创作特征”可能会过时，因此模型在现实应用中可能需要定期更新以保持效力。
未探索大模型的深度结合：实验部分虽然测试了 GPT-4 的零样本性能，但并未深入探索如何将本文提出的“创作过程感知”能力与强大的 (M)LLMs 相结合。

未来工作可以从以下几点展开：

与新闻学与传播学进行学科交叉：让“创作过程”的建模建立在关于虚假信息生产动机、条件和策略的理论理解之上，从而提升模型的解释性和泛化能力。
与大型多模态模型的融合：考虑如何将 FakingRecipe 的核心思想（创作过程感知）“装备”给 (M)LLMs。通过提示工程、思维链、适配器微调等高级技术，让 (M)LLMs 具备分析视频创作过程的能力，从而结合 (M)LLMs 的强大通用知识与本方法的领域特定洞察。