多模态情感分析中的对比学习-编程阁

案例：你有没有刷到过这样的视频：一个人嘴上说着“我没事”，声音却在发抖，眼眶还红红的。只看文字，AI会判为“中性”；但加上语音和画面，真实情感是“悲伤”。怎么让模型把这三者对齐、听懂“言外之意”？答案就是对比学习。

一、句话理解对比学习

对比学习的目标：让模型学会“拉近相似的东西，推开不相似的东西”。

在多模态情感分析中，就是让相同情感的文本、声音、画面在特征空间里靠得更近，让不同情感的样本相互远离。

二、为什么要用对比学习？

传统多模态情感分析的痛点：

模态鸿沟：文字、语音、视频是三种不同的数据形式，很难直接对齐
标注成本高：精细的情感标签（比如“愤怒程度0.7”）很难大量获取
情感类别不平衡：训练数据里“开心”很多，“厌恶”很少，模型容易偏向多数类

对比学习的优势：

不需要大量标签，可以自监督地预训练
天然适合对齐不同模态的信息
通过“硬负样本挖掘”可以提升对稀缺类别的识别能力

三、核心概念：正样本与负样本

在训练中，我们需要定义哪些样本是“正对”（应该靠近），哪些是“负对”（应该远离）：

样本类型	定义	示例
正样本对	同一情感下的不同模态/不同视图	“我好生气”这句话 + 说话者皱眉的视频帧
负样本对	不同情感下的任意组合	“我好生气”的文字 + 另一个视频里微笑的表情

四、五大通用对比学习算法

这些算法最初在图像自监督学习领域提出，但它们的思想被大量迁移到多模态情感分析中。

1. SimCLR

核心做法：一张图片做两次随机增强（如裁剪、变色），得到一个正样本对；同批次里的其他图片都是负样本。
关键点：只要有足够大的batch size和合适的增强方式，就能学到很好的特征。
缺点：非常吃显存，负样本越多效果越好，但硬件限制大。
对情感分析的价值：后续方法借鉴了它“构造正负对”的基本逻辑——把同一视频的文本和视频帧作为正对，不同视频的作为负对。

2. MoCo

核心做法：维护一个队列作为“负样本字典”，每次只计算当前batch与队列的对比损失；编码器用动量更新，保持队列中的特征一致性。
关键点：负样本数量可以和batch size解耦，小batch也能用大量负样本。
对情感分析的价值：在对话情感识别中，可以用队列存储之前说话人的历史状态，作为当前样本的负样本，让模型学会区分不同会话人的情绪变化。

3. BYOL

核心做法：彻底抛弃负样本！只使用正样本对。一个网络（在线网络）去预测另一个网络（目标网络）的输出，目标网络由在线网络的动量更新得到。
关键点：证明没有负样本也能避免模型坍塌，但需要不对称的结构设计。
对情感分析的价值：当某些模态缺失时（比如只有文本没有视频），BYOL的思路可以让模型只依赖现有模态去预测缺失模态的特征，不需要构造负样本对。

4. SwAV

核心做法：不做样本与样本的直接对比，而是做样本与“聚类原型”的对比。先对特征在线聚类，然后要求同一张图片的不同增强视图被分到同一个聚类中心。
关键点：计算效率比SimCLR高，因为不需要两两对比。
对情感分析的价值：情感本质上是离散类别（愤怒、开心、悲伤等），SwAV的聚类式对比可以帮助模型自动发现这些情感类别中心，尤其是在无标签或弱标签场景下。

5. Barlow Twins

核心做法：不关心正负样本对，而是直接约束两个增强视图的特征向量各维度之间不相关。具体来说，计算互相关矩阵，让它接近单位矩阵（对角线为1，非对角线为0）。
关键点：从“信息冗余”的角度，让模型只保留对增强不变的有效特征，丢掉冗余的维度。
对情感分析的价值：在多模态融合时，不同模态可能包含重复信息。Barlow Twins的损失可以用来强制文本、音频、视频学习互补的特征，避免重复编码同一信息。

小结：这五种算法是当前对比学习的支柱。在多模态情感分析论文中，你看到的“对比损失”大部分是InfoNCE（SimCLR/MoCo所用的形式），或者是对Barlow Twins、SwAV的变体。

五、多模态情感分析中的典型应用框架

下面这些才是专门针对情感分析任务设计的框架，它们都建立在上述基础算法之上。

1. MLCL（多层级对比学习）

思路：不只做跨模态对比，而是分三层：单模态自己和自己比（增强后的文本）、双模态之间比（文本和视频）、三模态融合后再比。
简单案例：一段开心视频，让文本“哈哈”与笑脸靠近，同时让这个视频与另一个哭脸视频的特征远离。

2. GCCL（图上下文对比学习）

思路：适用于多轮对话。把每个说话人的每句话及其多模态特征建成图，通过对比学习让同一个说话人的相同情绪相互靠近，让不同说话人的相同情绪相互远离（硬负样本）。
简单案例：小A说“我恨你”后又说“开玩笑”，这两句情绪不同，不能因为说话人相同就强行拉近。

3. TEXT（利用大模型生成文本做桥梁）

思路：先用多模态大模型（如Video-LLaMA）把视频描述成文字，例如“一个皱眉的人说‘我没事’”。然后用对比学习对齐原始音频、原始视频、生成文字这三者。
简单案例：一段哭脸+哽咽声，大模型生成“一个人在哭”，三路对齐后模型输出“悲伤”，并且能说出依据。

4. 多到一迁移（训练多模态、推理单模态）

思路：训练时用完整的文本+音频+视频，通过对比学习强制单模态特征也能预测出多模态的信息。训练后推理时只需要文本。
简单案例：模型看了大量带表情和声音的视频后，只给一句“我很难过”，也能准确判断情感，不需要摄像头和麦克风。

六、常用数据集

CMU-MOSI：最经典的视频情感数据集，情感强度从-3到+3
CMU-MOSEI：目前规模最大的英文视频情感分析数据集
CH-SIMS：中文电影片段情感数据集
MELD：多轮对话情感数据集（电视剧《老友记》剪辑），7种情绪
IEMOCAP：专业演员表演的对话情感数据集

七、总结

对比学习 = 让模型自己学会“谁和谁是一类”，从而更好地融合文本、声音、画面来识别人类真实的情感。

对比学习核心：拉近正对、推远负对。
五大基础算法：SimCLR、MoCo、BYOL、SwAV、Barlow Twins —— 掌握它们的思想，就掌握了对比学习的半壁江山。
情感分析中的应用框架：MLCL、GCCL、TEXT、多到一迁移等，都是在基础算法上的定制化设计。
实际价值：让AI不再只看文字表面，而是结合语气、表情、上下文，真正理解人类的“言外之意”。

多模态情感分析中的对比学习