news 2026/4/16 14:00:25

【ICLR26-尹义龙-山东大学】DVLA-RL:基于强化学习选通机制的双层次视觉-语言对齐用于少样本学习

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【ICLR26-尹义龙-山东大学】DVLA-RL:基于强化学习选通机制的双层次视觉-语言对齐用于少样本学习

文章:DVLA-RL: DUAL-LEVEL VISION-LANGUAGE ALIGNMENT WITH REINFORCEMENT LEARNING GATING FOR FEW-SHOT LEARNING

代码:暂无

单位:山东大学、深圳环湾研究院、山东财经大学计算机与人工智能学院


一、问题背景

深度学习在大规模标注数据的支撑下取得了显著成就,但现实场景中获取大量标注数据往往成本高昂,甚至不切实际。少样本学习(FSL)应运而生,它旨在通过少量标注样本,将从基础数据集学到的知识推广到新类别任务中,在罕见病诊断、工业异常检测等领域具有广泛应用前景。

现有少样本学习方法中,部分方案尝试融合大语言模型(LLMs)的语义信息来丰富视觉表征,但存在明显局限:要么仅依赖单一层级的语义(低层级属性或高层级描述),要么采用静态融合模块,忽视了视觉与语言从低层级到高层级语义的渐进式、自适应对齐需求,导致语义增益有限,难以充分挖掘有限样本中的判别性信息。

二、方法创新

针对上述问题,研究团队提出了双级视觉-语言对齐与强化学习门控(DVLA-RL)框架,核心包含两大创新模块:

1. 双级语义构建(DSC)模块

以类别名称和支持样本为双重条件,通过LLM生成具有区分性的候选属性;再通过渐进式Top-k选择策略,基于余弦相似度迭代筛选出最相关的属性,抑制语义幻觉和冗余信息;最后将筛选后的属性合成为连贯的类别描述,同时提供细粒度的低层级属性和整体性的高层级描述,兼顾精准定位与全局理解。

2. 强化学习门控注意力(RLA)模块

将跨模态融合转化为序列决策过程,通过基于情节强化学习训练的轻量级策略,自适应平衡自注意力与交叉注意力的贡献。该机制让浅层网络聚焦局部属性细节,深层网络强调全局语义,实现视觉与语言在不同网络层级的精准对齐,动态整合双级语义与视觉特征。

三、实验结果

DVLA-RL在三类少样本学习场景的9个基准数据集上进行了全面验证,表现亮眼:

  • 通用少样本分类:在miniImageNet、tieredImageNet、CIFAR-FS数据集上,1-shot和5-shot设置下均取得最优或次优性能,其中miniImageNet的1-shot准确率达81.69%、5-shot达88.25%,CIFAR-FS的1-shot准确率达87.18%、5-shot达90.59%,超越强基线SemFew 0.6%-2.8%。

  • 细粒度少样本分类:在CUB-200-2011、Stanford Dogs、Stanford Cars数据集上表现突出,1-shot设置下显著超越第二名SUITED 5.4%-15.3%,CUB数据集的1-shot准确率达91.93%、5-shot达95.06%,精准捕捉类别间细微差异。

  • 跨域少样本分类:在miniImageNet作为训练集、CUB、Places、ChestX作为测试集的跨域场景中,1-shot和5-shot任务均优于所有基线,其中Places数据集的1-shot准确率达69.26%、5-shot达80.70%,在医学影像数据集ChestX上也实现了有效突破。

此外,消融实验证实,DSC的双级语义和Top-k选择、RLA的自适应融合均对性能有显著提升,各组件协同作用达到最优效果。

四、优势与局限

优势

  1. 层级化对齐:首次实现视觉-语言从低层级到高层级的渐进式对齐,兼顾细粒度属性与全局描述的互补价值。

  2. 动态自适应:通过强化学习门控机制,动态平衡不同网络层级的注意力分配,适配视觉特征的层级化特性。

  3. 高效低耗:采用轻量化设计,文本语义离线生成,训练时间(22分钟)、推理延迟(80ms)和GPU内存消耗均低于现有LLM-based方法,计算效率优势明显。

  4. 鲁棒性强:对不同LLM(Qwen2.5-VL-32B、GPT-4 turbo、GPT-4o)均有良好适配,且能有效抑制语义幻觉。

局限

  1. 跨域极端场景性能受限:在ChestX等医学影像数据集上,虽取得SOTA,但受限于影像本身低纹理、类别表现重叠等特性,性能提升幅度小于自然图像数据集。

  2. 依赖LLM语义质量:尽管通过Top-k选择和自适应融合降低了影响,但LLM生成语义的准确性仍会对最终性能产生间接影响。

  3. 超参数敏感度过低:虽鲁棒性强,但Beta浓度和RL权重等超参数仍需根据不同数据集微调以达到最优效果。

五、一句话总结

DVLA-RL通过双级语义构建与强化学习门控注意力的创新组合,实现了少样本学习中视觉-语言的层级化、动态化对齐,在三类典型场景的9个基准数据集上刷新SOTA,同时兼顾高效性与鲁棒性,为少样本学习的跨模态融合提供了新范式。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 20:45:30

终极家庭游戏共享方案:Sunshine多设备协同串流完整指南

终极家庭游戏共享方案:Sunshine多设备协同串流完整指南 【免费下载链接】Sunshine Sunshine: Sunshine是一个自托管的游戏流媒体服务器,支持通过Moonlight在各种设备上进行低延迟的游戏串流。 项目地址: https://gitcode.com/GitHub_Trending/su/Sunsh…

作者头像 李华
网站建设 2026/4/16 12:27:29

2025网盘工具深度测评:直链下载技术如何重塑资源获取体验

2025网盘工具深度测评:直链下载技术如何重塑资源获取体验 【免费下载链接】Online-disk-direct-link-download-assistant 可以获取网盘文件真实下载地址。基于【网盘直链下载助手】修改(改自6.1.4版本) ,自用,去推广&a…

作者头像 李华
网站建设 2026/4/11 4:07:58

5个窗口管理技巧突破多任务效率瓶颈:PinWin工具全方位应用指南

5个窗口管理技巧突破多任务效率瓶颈:PinWin工具全方位应用指南 【免费下载链接】PinWin Pin any window to be always on top of the screen 项目地址: https://gitcode.com/gh_mirrors/pin/PinWin 你是否曾在设计软件与参考素材间频繁切换而打断创作思路&am…

作者头像 李华
网站建设 2026/4/15 14:45:41

芒格的“逆向思维“在颠覆性技术评估中的重要性

芒格的"逆向思维"在颠覆性技术评估中的重要性 关键词:逆向思维、颠覆性技术、查理芒格、技术评估、决策模型、创新管理、风险分析 摘要:本文探讨了投资大师查理芒格提出的"逆向思维"方法在评估颠覆性技术中的独特价值。通过系统分析…

作者头像 李华
网站建设 2026/4/4 18:17:58

旧设备复活指南:让你的Mac重获新生的系统升级之旅

旧设备复活指南:让你的Mac重获新生的系统升级之旅 【免费下载链接】OpenCore-Legacy-Patcher 体验与之前一样的macOS 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 您是否曾遇到这样的困境:手中的Mac设备功能依然完…

作者头像 李华
网站建设 2026/4/16 13:41:54

ZYNQ TTC逆向思维:用中断寄存器构建高精度事件采集系统

ZYNQ TTC逆向思维:用中断寄存器构建高精度事件采集系统 在物联网设备开发中,精确测量外部信号的时间参数往往成为系统设计的瓶颈。传统方法通常依赖专用硬件或复杂的软件算法,而ZYNQ平台的三重定时器计数器(TTC)模块提供了一种被多数开发者忽…

作者头像 李华