news 2026/6/10 18:56:08

【2025 ACL】Listen, Watch, and Learn to Feel: Retrieval-Augmented Emotion Reasoning for Compound Emo

张小明

前端开发工程师

1.2k 24

文章封面图 — 【2025 ACL】Listen, Watch, and Learn to Feel: Retrieval-Augmented Emotion Reasoning for Compound Emo

文章目录

核心问题
核心思想与动机
提出的方法
- A. 检索增强情感推理框架 (RAER)
- B. 刺激武装强盗评估框架 (SAB)
- C. 复合情感问答数据集 (Compound Emotion QA Dataset)
主要贡献

核心问题

通用的大语言模型（LLMs）和多模态大语言模型（MLLMs）在情感理解方面存在显著挑战：

复合情感和模糊性 (Compound and Ambiguous Emotions):传统的情感识别模型（如基于“Big Six”离散标签或 VAD 维度标签的模型）难以充分捕捉人类情感表达中复杂和细微的差别，尤其是在涉及复合情感和上下文丰富的情景中。
标注的主观性和不一致性 (Subjectivity and Inconsistency):基于心理学理论的人类标注，由于情感感知的主观性，往往导致标注结果不一致，这限制了现有模型的鲁棒性。
缺乏细粒度的评估方法 (Lack of Fine-grained Evaluation):现有的评估框架难以系统性地评估模型处理复杂情感推理的能力，特别是那些难以量化的任务。

核心思想与动机

核心思想是利用检索增强生成 (RAG)的能力，为 MLLM 提供外部、上下文相关的情感知识，从而提升其在复杂情感情景中的推理能力。

动机：为了解决现有模型在处理复合情感时的局限性，论文提出了一种更像人类、更细致入微的方法。通过 RAG 引入外部知识，可以指导 MLLM 进行更深入的情感推理，而不是仅仅依赖模型自身的参数化知识。
关键机制：结合 RAG 和思维链 (Chain-of-Thought, CoT) 推理，构建RAER (Retrieval-Augmented Emotion Reasoning)框架。

提出的方法

论文提出了两个主要框架和一个新数据集：

A. 检索增强情感推理框架 (RAER)

RAER 是一个即插即用 (plug-and-play)的模块，旨在增强 MLLMs 处理复合情感的能力。

情感知识库构建 (Emotional Knowledge Base):知识库最初由多模态情感数据集构建，将面部表情、情感音频和情感描述等多样化输入编码为高维向量嵌入。这个知识库会动态更新，通过添加 RAER 在推理过程中生成的高置信度样本进行演化和扩展。
情感推理与思维链 (Emotion Reasoning CoT):RAER 利用 CoT 机制指导 MLLM 进行结构化推理。当模型在生成初始回复时遇到情感歧义或不确定性时，它会触发检索机制。
检索增强 (Retrieval Augmentation):当情感线索不一致时（Cues Inconsistent），系统通过K-近邻 (K-Nearest Neighbors)搜索从向量数据库中检索最相似的例子及其关联的情感描述。这些检索到的上下文用于细化模型对情感线索的理解和消除歧义，从而生成更准确、更符合上下文的推论。

B. 刺激武装强盗评估框架 (SAB)

目的：这是一个新颖的评估方法，专为评估 MLLMs 的复合情感能力而设计，特别是在开放式语言上下文和难以量化的任务中。
机制：它受到经典多臂强盗 (multi-armed bandit) 问题的启发。SAB 结合 AI 生成的多模态刺激 (Stimuli)和情感任务，通过两两比较 (Pairwise Comparisons)，收集人类或 AI 评估者的偏好判断。
评分：使用Elo 评分机制动态调整模型的排名分数，以评估模型在动态和复合情感上下文中的表现。

C. 复合情感问答数据集 (Compound Emotion QA Dataset)

用于强化 MLLMs 的情感理解能力

生成方式：它结合了 RAER 生成的回复和 SAB 收集的人类偏好信息。
内容结构：数据集中的每个样本都包含一个首选回复 (preferred response) 和一个非首选回复 (non-preferred counterpart)，形成一个成对偏好实例 (pairwise preference instance) 。

构建流程
1. 刺激生成 (Stimulus Generation):使用 GPT-4 或 GPT-4o 生成情感中性关键词。然后，使用像 Sora（用于视觉）和 AudioGen（用于音频）等生成模型，基于这些关键词创建多样化的多模态刺激（如视频、音频）。
2. 任务公式化 (Task Formulation):将这些多模态刺激与 MER（多模态情感识别）或 MERG（多模态共情回复生成）任务随机匹配，形成任务提示（Task Prompt）。
3. 模型推理和偏好判断 (Inference and Preference Judgment):目标 MLLM（如 VideoLLaMA2）对生成的刺激进行多模态推理并生成相应回复。这些回复随后通过 SAB 框架进行评估，评估基于人类或 GPT-4o 的偏好判断。

主要贡献

提出 RAER 框架：首个结合检索增强生成和情感推理链的方法，以增强 MLLMs 处理复合情感任务的能力。
引入 SAB 评估框架：提出了Stimulus-Armed Bandit (SAB)框架，用于系统性地评估 MLLMs 在复合情感场景中的表现，并能有效收集人类偏好信号。
构建 Compound Emotion QA 数据集：创建了一个包含复合情感任务的多模态问答数据集，旨在提升 MLLMs 的复合情感能力。

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/6/10 1:33:27

前端——TailwindCSS在管理系统中的应用技巧

TailwindCSS作为一个功能类优先的CSS框架，在后台管理系统中有独特的优势。 1 响应式布局  <div class"grid grid-cols-1 md:grid-cols-2 lg:grid-cols-3 gap-4"><div class"bg-white rounded-lg shadow p-6&q…

作者头像

李华

网站建设 2026/6/10 13:17:43

盲盒小程序开发✨全玩法覆盖不踩坑！

盲盒小程序开发✨全玩法覆盖不踩坑！做盲盒小程序怕玩法单一？我们全搞定！🎉爬塔闯关赢稀有赏、经典一番赏抽限定款、无限赏解锁持续惊喜，还有对对碰互动 PK，玩家粘性直接拉满！社交商城双 buff …

作者头像

李华

网站建设 2026/6/10 13:17:15

Jmeter进行http接口测试，这一篇就搞定

jmeter-http接口测试脚本 jmeter进行http接口测试的主要步骤（1.添加线程组 2.添加http请求 3.在http请求中写入接口的URL，路径，请求方式，参数 4.添加查看结果树 5.调用接口，查看返回值） 针对接口添加heade…

作者头像

李华

网站建设 2026/6/10 13:17:16

LobeChat能否支持WebGL可视化？三维数据呈现设想

LobeChat能否支持WebGL可视化？三维数据呈现设想在AI助手逐渐从“问答工具”演变为“智能工作台”的今天，用户不再满足于冷冰冰的文字回复。工程师想看神经网络的拓扑结构，科研人员需要直观展示分子空间构型，设计师希望实时预览3D…

作者头像

李华

网站建设 2026/6/10 11:03:18

Fail2Ban 一键部署 + 管理脚本（可直接执行）

将以下内容保存为 fail2ban_setup.sh，执行 sudo bash fail2ban_setup.sh 即可完成「配置 Web 界面常用命令封装」，无需手动敲命令！bash运行#!/bin/bash # Fail2Ban 一键部署脚本（适配 Ubuntu 20.04/22.04） # 作者&a…

作者头像

李华

网站建设 2026/6/10 13:19:42

软件工程与系统，容器，进程，架构，组织，结构和部署的关系概论

考虑软件工程作为一个学科，它涉及软件开发的整个生命周期。在这个生命周期中，系统、容器、进程、架构、组织、结构和部署是不同层次和阶段的关键概念。下面将详细阐述它们之间的关系，以及它们的核心机制和原理，并举例说明。系统&…

作者头像

李华