news 2026/6/10 18:56:08

【2025 ACL】Listen, Watch, and Learn to Feel: Retrieval-Augmented Emotion Reasoning for Compound Emo

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【2025 ACL】Listen, Watch, and Learn to Feel: Retrieval-Augmented Emotion Reasoning for Compound Emo

文章目录

  • 核心问题
  • 核心思想与动机
  • 提出的方法
    • A. 检索增强情感推理框架 (RAER)
    • B. 刺激武装强盗评估框架 (SAB)
    • C. 复合情感问答数据集 (Compound Emotion QA Dataset)
  • 主要贡献

核心问题

通用的大语言模型(LLMs)和多模态大语言模型(MLLMs)在情感理解方面存在显著挑战 :

  • 复合情感和模糊性 (Compound and Ambiguous Emotions):传统的情感识别模型(如基于“Big Six”离散标签或 VAD 维度标签的模型)难以充分捕捉人类情感表达中复杂细微的差别,尤其是在涉及复合情感上下文丰富的情景中 。
  • 标注的主观性和不一致性 (Subjectivity and Inconsistency):基于心理学理论的人类标注,由于情感感知的主观性,往往导致标注结果不一致,这限制了现有模型的鲁棒性 。
  • 缺乏细粒度的评估方法 (Lack of Fine-grained Evaluation):现有的评估框架难以系统性地评估模型处理复杂情感推理的能力,特别是那些难以量化的任务 。

核心思想与动机

核心思想是利用检索增强生成 (RAG)的能力,为 MLLM 提供外部、上下文相关的情感知识,从而提升其在复杂情感情景中的推理能力

  • 动机:为了解决现有模型在处理复合情感时的局限性,论文提出了一种更像人类、更细致入微的方法 。通过 RAG 引入外部知识,可以指导 MLLM 进行更深入的情感推理,而不是仅仅依赖模型自身的参数化知识 。
  • 关键机制:结合 RAG 和思维链 (Chain-of-Thought, CoT) 推理,构建RAER (Retrieval-Augmented Emotion Reasoning)框架。

提出的方法

论文提出了两个主要框架和一个新数据集:

A. 检索增强情感推理框架 (RAER)

RAER 是一个即插即用 (plug-and-play)的模块,旨在增强 MLLMs 处理复合情感的能力 。

  • 情感知识库构建 (Emotional Knowledge Base):知识库最初由多模态情感数据集构建,将面部表情、情感音频情感描述等多样化输入编码为高维向量嵌入 。这个知识库会动态更新,通过添加 RAER 在推理过程中生成的高置信度样本进行演化和扩展。
  • 情感推理与思维链 (Emotion Reasoning CoT):RAER 利用 CoT 机制指导 MLLM 进行结构化推理 。当模型在生成初始回复时遇到情感歧义或不确定性时,它会触发检索机制 。
  • 检索增强 (Retrieval Augmentation):当情感线索不一致时(Cues Inconsistent),系统通过K-近邻 (K-Nearest Neighbors)搜索从向量数据库中检索最相似的例子及其关联的情感描述 。这些检索到的上下文用于细化模型对情感线索的理解和消除歧义,从而生成更准确、更符合上下文的推论 。

B. 刺激武装强盗评估框架 (SAB)

  • 目的:这是一个新颖的评估方法,专为评估 MLLMs 的复合情感能力而设计,特别是在开放式语言上下文和难以量化的任务中 。
  • 机制:它受到经典多臂强盗 (multi-armed bandit) 问题的启发 。SAB 结合 AI 生成的多模态刺激 (Stimuli)和情感任务,通过两两比较 (Pairwise Comparisons),收集人类或 AI 评估者的偏好判断
  • 评分:使用Elo 评分机制动态调整模型的排名分数,以评估模型在动态和复合情感上下文中的表现 。

C. 复合情感问答数据集 (Compound Emotion QA Dataset)

用于强化 MLLMs 的情感理解能力

  • 生成方式:它结合了 RAER 生成的回复和 SAB 收集的人类偏好信息。
  • 内容结构:数据集中的每个样本都包含一个首选回复 (preferred response) 和一个非首选回复 (non-preferred counterpart),形成一个成对偏好实例 (pairwise preference instance) 。
  • 构建流程
    1. 刺激生成 (Stimulus Generation):使用 GPT-4 或 GPT-4o 生成情感中性关键词 。然后,使用像 Sora(用于视觉)和 AudioGen(用于音频)等生成模型,基于这些关键词创建多样化的多模态刺激(如视频、音频)。
    2. 任务公式化 (Task Formulation):将这些多模态刺激与 MER(多模态情感识别)或 MERG(多模态共情回复生成)任务随机匹配,形成任务提示(Task Prompt)。
    3. 模型推理和偏好判断 (Inference and Preference Judgment):目标 MLLM(如 VideoLLaMA2)对生成的刺激进行多模态推理并生成相应回复 。这些回复随后通过 SAB 框架进行评估,评估基于人类或 GPT-4o 的偏好判断 。

主要贡献

  1. 提出 RAER 框架:首个结合检索增强生成情感推理链的方法,以增强 MLLMs 处理复合情感任务的能力 。
  2. 引入 SAB 评估框架:提出了Stimulus-Armed Bandit (SAB)框架,用于系统性地评估 MLLMs 在复合情感场景中的表现,并能有效收集人类偏好信号 。
  3. 构建 Compound Emotion QA 数据集:创建了一个包含复合情感任务的多模态问答数据集,旨在提升 MLLMs 的复合情感能力。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 1:33:27

前端——TailwindCSS在管理系统中的应用技巧

TailwindCSS作为一个功能类优先的CSS框架&#xff0c;在后台管理系统中有独特的优势。 1 响应式布局 <!-- 响应式网格布局 --> <div class"grid grid-cols-1 md:grid-cols-2 lg:grid-cols-3 gap-4"><div class"bg-white rounded-lg shadow p-6&q…

作者头像 李华
网站建设 2026/6/10 13:17:43

盲盒小程序开发✨全玩法覆盖不踩坑!

盲盒小程序开发✨全玩法覆盖不踩坑&#xff01;做盲盒小程序怕玩法单一&#xff1f;我们全搞定&#xff01;&#x1f389;爬塔闯关赢稀有赏、经典一番赏抽限定款、无限赏解锁持续惊喜&#xff0c;还有对对碰互动 PK&#xff0c;玩家粘性直接拉满&#xff01;社交 商城双 buff …

作者头像 李华
网站建设 2026/6/10 13:17:15

Jmeter进行http接口测试,这一篇就搞定

jmeter-http接口测试脚本 jmeter进行http接口测试的主要步骤&#xff08;1.添加线程组 2.添加http请求 3.在http请求中写入接口的URL&#xff0c;路径&#xff0c;请求方式&#xff0c;参数 4.添加查看结果树 5.调用接口&#xff0c;查看返回值&#xff09; 针对接口添加heade…

作者头像 李华
网站建设 2026/6/10 13:17:16

LobeChat能否支持WebGL可视化?三维数据呈现设想

LobeChat能否支持WebGL可视化&#xff1f;三维数据呈现设想 在AI助手逐渐从“问答工具”演变为“智能工作台”的今天&#xff0c;用户不再满足于冷冰冰的文字回复。工程师想看神经网络的拓扑结构&#xff0c;科研人员需要直观展示分子空间构型&#xff0c;设计师希望实时预览3D…

作者头像 李华
网站建设 2026/6/10 11:03:18

Fail2Ban 一键部署 + 管理脚本(可直接执行)

将以下内容保存为 fail2ban_setup.sh&#xff0c;执行 sudo bash fail2ban_setup.sh 即可完成「配置 Web 界面 常用命令封装」&#xff0c;无需手动敲命令&#xff01;bash运行#!/bin/bash # Fail2Ban 一键部署脚本&#xff08;适配 Ubuntu 20.04/22.04&#xff09; # 作者&a…

作者头像 李华
网站建设 2026/6/10 13:19:42

软件工程与系统,容器,进程,架构,组织,结构和部署的关系概论

考虑软件工程作为一个学科&#xff0c;它涉及软件开发的整个生命周期。在这个生命周期中&#xff0c;系统、容器、进程、架构、组织、结构和部署是不同层次和阶段的关键概念。下面将详细阐述它们之间的关系&#xff0c;以及它们的核心机制和原理&#xff0c;并举例说明。 系统&…

作者头像 李华