多模态大模型工作原理详解：视觉与语言信息如何在MLLMs中融合与传播？-编程阁

本研究首次系统性分析多模态大语言模型内部跨模态信息流动机制，通过注意力屏蔽方法发现视觉信息通过三阶段传播：低层整合全局视觉特征，中层提取问题相关视觉信息，高层进行最终预测。这一发现揭示了LLaVA系列模型中信息流动的一致模式，提升了MLLMs可解释性，为多模态交互建模提供新思路。

论文链接: https://arxiv.org/abs/2411.18620

简介

近年来，自回归多模态大语言模型（MLLMs）在视觉-语言任务中取得了显著进展。然而，尽管已有大量研究探讨了大语言模型（LLMs）在语言信息处理方面的能力，但MLLMs内部的跨模态信息交互机制仍然缺乏深入理解。本研究旨在填补这一空白，分析MLLMs在视觉问答（VQA）任务中的信息流动方式。

研究发现，MLLMs在融合视觉和语言信息时，存在两个主要阶段：

低层：模型首先将整个图像的全局视觉特征传播到语言问题的隐藏表示中。
中层：模型进一步提取图像中特定于问题的目标信息，并映射到对应的文本 token 位置。
高层：多模态融合后的信息传播到输入序列的最后位置，以进行最终预测。

实验表明，这一信息流动模式在多个 LLaVA 系列 MLLMs（包括 LLaVA-1.5-7b、LLaVA-1.5-13b、LLaVA-v1.6-Vicuna-7b 和 Llama3-LLaVA-NEXT-8b）中是一致的。这些发现有助于提高 MLLMs 的透明性，并为未来多模态信息处理研究提供新的方向。

研究动机

现状

多模态大语言模型（MLLMs）结合了强大的自回归大语言模型（LLMs）和视觉编码器（Vision Encoders），在视觉-语言任务上表现优异。
现有研究主要关注 LLMs 的信息存储、知识编辑、以及视觉信息的局部化等问题。
但对于视觉和语言信息如何在 MLLMs 内部交互以生成最终预测仍然缺乏系统性研究。

关键问题

视觉信息是如何在 MLLMs 内部融合到语言信息中的？
视觉信息是如何在不同层级进行传播和影响最终的预测？
语言和视觉信息分别如何贡献于最终答案的生成？

论文贡献

首次系统性研究 MLLMs 内部的跨模态信息流动，揭示视觉信息如何通过多个阶段传播并影响最终预测。
提出"两阶段融合+最终传播"的跨模态信息流动模式，并在多个 SOTA MLLMs 中验证其普遍性。
采用注意力屏蔽（Attention Knockout）方法，精确分析视觉信息在 MLLMs 不同层级的影响。
提升 MLLMs 的可解释性，为多模态交互建模提供新思路，促进更高效的模型设计。

模型结构

图1. 求解多模态任务时MLLM的内部机制的例证。从底层到顶层，该模型首先将整个图像的一般视觉信息传播到语言隐藏表示形式。接下来，将与回答问题相关的选定视觉信息转移到语言表示；最后，问题流的隐藏表示形式中的集成多模式信息，以促进最终预测。此外，答案最初是以小写形式生成的，然后转换为大写的第一个字母。

MLLMs 结构

图2 多模态大语言模型的典型体系结构。它由图像编码器和仅解码器的大型语言模型组成，其中多模特信息被集成。文中省略了视觉patch功能的投影矩阵。

MLLMs 由视觉编码器和自回归 Transformer 语言模型（LLM）组成：

视觉编码器（如 CLIP-ViT-L-336px）：将输入图像编码为视觉 token。
LLM（如 LLaMA3、Vicuna）：将视觉 token 作为文本输入的一部分，并生成最终答案。
注意力屏蔽（Attention Knockout）
通过屏蔽注意力连接，研究跨模态信息在不同层级的传播路径：
若或否则
其中，代表视觉 token 位置，代表语言 token 位置。
视觉信息传播路径分析
第一阶段（低层）：

视觉信息从图像 token 传播到语言 token，形成全局语义表示。
实验表明，在0-4 层屏蔽图像到语言的连接，会导致预测准确率下降。

第二阶段（中层）：

进一步聚焦到与问题相关的视觉区域。
在10-15 层屏蔽相关图像区域到语言 token，准确率下降。

第三阶段（高层）：

多模态信息整合后，传播到序列的最后位置以进行最终预测。
观察到模型先生成小写答案，再在最后几层转换为大写格式。

实验结果

实验集中于以下研究问题：

一般视觉信息如何与问题中的语言信息融合？
针对性视觉信息如何与语言信息整合？
输入的各个组成部分如何影响最终答案的预测？

主要实验结果

信息流动分析：

视觉信息主要在低层到中层传播，最终在高层进行答案生成。
低层整合全局视觉信息，中层提取特定目标信息。

模型性能分析：

LLaVA-1.5-13b、LLaVA-1.5-7b、LLaVA-v1.6-Vicuna-7b、Llama3-LLaVA-NEXT-8b 均表现出相似的信息流动模式。
采用高分辨率输入（如 LLaVA-v1.6）能增强视觉信息传播效果。

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

04.大模型面试题目详解

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓