用GPT-4生成数据破解视觉指令冷启动-编程阁

LLaVA在微调时解决视觉指令数据不足的冷启动问题，其核心方案是利用强大的纯文本语言模型（如GPT-4）自动生成高质量的视觉-语言指令数据。这是一种“以语言模型生成数据，再反哺多模态模型训练”的创新范式。

在LLaVA项目之前，构建一个通用的视觉语言助手面临两大核心挑战：

高质量多模态指令数据稀缺：与纯文本指令数据（如Alpaca）不同，高质量的（图像，指令，输出）三元组数据非常稀少且构建成本极高，需要大量的人工标注。
“对齐鸿沟”：即使有海量的图像-文本对（如图片描述），它们与复杂的、涉及推理、对话、详细描述的指令-响应格式也存在巨大差距。直接使用简单描述数据进行指令微调，模型无法学会遵循复杂指令。

因此，冷启动问题实质是：在缺乏现成、足量的高质量视觉指令数据的情况下，如何启动对大型语言模型（LLM）的视觉指令微调？

LLaVA的解决方案是一个两阶段训练流程，其中第一阶段为第二阶段生成数据扫清了障碍。

第一阶段：视觉特征与语言空间的预对齐

此阶段的目标并非直接进行指令微调，而是训练一个视觉“翻译器”，将视觉编码器（如CLIP-ViT）输出的图像特征，映射到语言模型（如Vicuna）能够理解的词向量空间。

训练数据：使用从CC3M数据集中过滤出的595K个相对高质量的图像-文本对。
训练方式：
- 冻结视觉编码器：保持CLIP的图像理解能力不变。
- 冻结语言模型：保持LLM的文本理解和生成能力不变。
训练参数：仅训练一个简单的线性投影矩阵（W）。这个矩阵的作用是将图像特征向量转换为与语言模型词向量维度对齐的特征序列。
数据转换：将图像-文本对（<Image>， Text）转化为简单的单轮问答格式（<Image>， “Describe this image.”， Text），即“朴素扩展法”。

此阶段的意义：它解决了“机器如何看到并初步描述世界”的问题。经过此阶段，模型已经能够将图像信息以语言模型能“读懂”的方式输入，并生成基本的图像描述。这为第二阶段生成复杂的指令数据奠定了特征对齐的基础。没有这个基础，即使有指令数据，LLM也无法正确关联视觉信息。

第二阶段：基于合成数据的端到端指令微调

这是解决冷启动问题的核心创新步骤。LLaVA利用第一阶段对齐好的“视觉语言模型”，借助纯文本GPT-4的推理和指令遵循能力，批量生成高质量的指令数据。

数据生成流程：
- 输入：来自COCO等数据集的图像及其现有标注（如标题、边界框）。这些标注被转化为丰富的文本表示，包含对象、属性、空间关系等信息。
- 提示工程：设计详细的提示词（Prompt），要求GPT-4扮演一个“指令编写者”，基于提供的图像文本化表示，生成多种类型的对话或问答。
- 生成三种指令数据（共158K样本）：
  - 对话（Conversation， 58K）：模拟多轮交互，问题涵盖对象识别、计数、动作、位置关系等。例如：
    用户：“图像左下角的植物是什么？”
    助手：“那是一盆多肉植物。”
  - 详细描述（Detailed Description， 23K）：要求生成对图像全面、细致的段落描述。
  - 复杂推理（Complex Reasoning， 77K）：涉及逻辑推理、因果关系、场景理解等需要“动脑”的问题。例如：
    用户：“为什么这个人穿着雨衣？”
    助手：“因为正在下雨，天空乌云密布，地面也是湿的。”
模型训练：
- 使用上述生成的158K高质量指令数据。
- 联合优化投影矩阵（W）和语言模型（LLM）的参数，使模型学会如何根据视觉输入和文本指令，生成符合要求的响应。
- 训练时，模型被要求根据历史上下文（包括图像和之前的对话）来预测助手接下来的回答。

LLaVA解决冷启动问题的方案可以概括为以下递进式逻辑：

迂回对齐：先利用大量易得的图像-文本对，训练一个简单的投影层，让LLM“学会看”图片的基本内容（第一阶段）。这绕开了直接需要复杂指令数据的难题。
数据合成：利用已经具备初步视觉理解能力的模型（第一阶段产物）作为“视觉信息提取器”，将图像转化为详细的文本描述。再将这些描述喂给顶级纯文本LLM（GPT-4），让其发挥强大的指令理解和文本生成能力，批量制造出原本稀缺的高质量视觉指令数据。
能力飞跃：用合成数据对模型进行端到端微调，最终得到一个既能“看懂”又能“说复杂话”的视觉语言助手。

这种方法巧妙地将视觉理解任务和指令遵循任务解耦。视觉理解通过预训练的图像编码器和投影层解决；复杂的指令遵循和语言生成能力，则通过语言模型生成的合成数据来注入。从而在缺乏真实人工标注指令数据的情况下，成功启动了多模态大模型的指令微调，并取得了媲美专用模型（如GPT-4）的性能。