卡内基梅隆大学等突破：多模态AI实现统一测试基准平台建立突破-编程阁

这项由卡内基梅隆大学、威廉与玛丽学院、奥本大学和威斯康星大学麦迪逊分校联合开展的研究，于2026年4月发表，论文编号为arXiv:2604.10784，有兴趣深入了解的读者可以通过该编号查询完整原文。

如果你最近关注过人工智能领域的新闻，一定听说过越来越多能看懂图片、写文章、还能帮你修图的AI系统。这些"多面手"AI，学界叫它们"统一多模态模型"（Unified Multimodal Models，简称UMM），是当前AI研究中最热门的方向之一。然而，这个领域有一个让研究者头疼已久的问题：每个团队开发出新模型后，都用自己的一套标准来测试，就像不同学校的老师各自出题、各自评分，你根本没法知道A校的优等生和B校的优等生谁更厉害。

这项研究的核心贡献，就是建了一个统一的"考场"——TorchUMM。这是业界第一个能把各种不同架构的多模态AI模型放在同一套试卷下统一考核的工具箱。它不仅能评测模型，还能分析模型的行为规律，甚至支持对模型进行进一步训练。研究团队通过这套工具，对十几个主流模型进行了全面测评，揭示了一批之前从未被系统性记录过的现象，其中最震撼的发现是：那些在某个测试上表现突出的模型，往往在另一个测试上悄悄"翻车"了。

---

一、多模态AI的"乱考场"问题

回到我们熟悉的学校比喻。假设你是一名家长，想知道自家孩子和隔壁班孩子谁学得更好，但两个班的老师用的是完全不同的题目、不同的评分标准，甚至考试时的环境也不一样——有的孩子开卷，有的闭卷。在这种情况下，你拿到的成绩单根本没有可比性。

这正是当前多模态AI评测领域的现状。研究团队在论文中指出，不同的模型往往在不同的"考卷"上被单独测试，评测流程、数据预处理方式、甚至接入模型的接口方式都各有差异。更麻烦的是，一些模型经过特定训练后，在某个特定测试上表现亮眼，但这种提升是真实的综合能力提升，还是只是对那道特定题目的"刷题效果"？没有统一的框架，根本无从判断。

研究团队还发现了一个更深层的问题：一个模型经过额外训练（行话叫"后训练"）后，在某些测试上分数提高了，却可能在另一些测试上分数悄悄下降了。就像一个学生为了数学竞赛拼命刷题，结果语文作文水平退步了。这种"此消彼长"的现象在现有评测体系下很容易被忽视，因为大家只盯着自己擅长的那道题的成绩汇报。

正是为了解决这个问题，研究团队开发了TorchUMM这套工具。它的设计理念可以用一句话概括：所有模型，同一套题，同一套评分规则，同一套环境。

---

二、TorchUMM是什么，它能做什么

TorchUMM的结构可以用一栋四层楼的建筑来理解。最底层是"基础设施层"，就像楼房的地基，提供了与PyTorch、Hugging Face等主流AI开发库的兼容接口，以及分布式训练和统一评分计算等通用功能。在这层地基之上，是"核心功能层"，这里住着三类最关键的东西：各种AI模型的接入适配器、测试用的数据集和基准，以及各种后训练方法。再往上一层是"任务执行层"，提供了图像理解、图像生成、图像编辑三条独立的流水线，以及一条跨任务综合评测通道。最顶层是"应用接口层"，用户可以通过简单的命令行或Python代码来调用所有功能，测评结果会自动生成报告。

目前，TorchUMM支持14个主流模型，涵盖了从1.3亿参数的轻量小模型到340亿参数的大型模型，架构类型跨越了纯自回归（一种逐步预测下一个词/像素的方式）、纯扩散（一种从噪声逐步生成清晰图像的方式）以及两者结合的混合架构。这些模型包括Bagel、OmniGen2、Emu3系列、Janus系列、Show-o系列、BLIP3-o、TokenFlow、DeepGen和MMaDA等。

在测试内容上，TorchUMM整合了12套基准数据集，覆盖三大核心能力维度。图像理解方面，包含MMMU（考察跨学科专业知识推理）、MMBench（全面多选题测试）、MME（感知与认知分离测试）、MM-Vet（复杂开放式推理）和MathVista（数学图表推理）。图像生成方面，包含DPG-Bench（细节保真度测试）、GenEval（组合生成测试）和WISE（世界知识融合测试）。图像编辑方面，包含GEdit-Bench（精细属性修改测试，含中英文版本）和ImgEdit（单轮与多轮编辑一致性测试）。此外还有两套跨任务综合基准：UEval和Uni-MMMU，专门考察模型在需要同时理解和生成的复杂任务上的表现。

后训练支持方面，TorchUMM目前整合了五种主流方法：标准监督微调（SFT）、交叉推理生成（IRG）、统一思维链推理（UniCoT）、重建对齐（RecA）以及自我博弈训练（UniGame）。

---

三、图像生成能力大测评：没有全能冠军

研究团队将14个模型放在同一套评测流水线下，得到了一批颇为出人意料的结果。

先说图像生成。DeepGen在GenEval（考察能否正确生成"两只猫坐在红色椅子上"这类需要组合多个要素的图像）上拿到了86.59分的最高分，在"画出正确数量的物体""画出指定空间关系"这类任务上表现出色。但DeepGen完全不具备图像理解能力，它只会画，不会看。Emu3.5在WISE测试上遥遥领先，得分0.633，而最低分的Janus只有0.222，两者相差近三倍。WISE考察的是模型能否根据涉及文化常识、地理空间、生物物理化学知识的文字描述生成正确图像，这个巨大的分差说明不同模型在"把世界知识融入图像"这件事上的能力差距极为悬殊。

有意思的是，OmniGen2和Bagel在DPG-Bench（考察细节保真度）上的得分非常接近，分别是84.51和84.11，说明这两个模型在生成精细内容时能力相当。而BLIP3-o只有40亿参数，却在GenEval上达到了81.36分，超过了70亿参数的Janus-Pro（78.92分），这说明模型大小不等于能力强——架构设计和训练数据质量的影响往往更加决定性。

---

四、图像理解能力大测评：感知强不代表推理强

在图像理解测评中，Bagel以全面领先的姿态拿下了几乎所有指标的第一名。在MME感知分（考察能否识别图中的物体、文字等基础内容）上，Bagel拿到1691.5分；在MME认知分（考察能否根据图像内容进行推理判断）上，Bagel拿到695.4分，而大多数竞争对手的认知分还不到Bagel的一半。在MMMU、MMBench、MM-Vet和MathVista上，Bagel同样拔得头筹。

不过，这里有一个非常值得关注的现象：感知分高不等于认知分也高。以Janus-Pro为例，它的感知分是1547.9，在所有模型中排名靠前，但认知分只有293.2，跌到了垫底水平。这就好比一个学生眼神极好，能看清黑板上写的每一个字，但不太能理解这些字连在一起是什么意思。这种"看得清但想不明"的模式在多个模型上都有体现，说明视觉感知能力和高阶推理能力在当前的模型架构中并不是自然捆绑的，是两个相对独立的能力模块。

更有意思的是理解能力和生成能力之间的张力。Emu3.5在图像生成的WISE测试上遥遥领先，却在图像理解的MME感知分上只拿到781.1分，是所有具备理解能力的模型中的最低分。这暗示着，如果一个模型的架构和训练目标主要针对生成任务进行了优化，它理解图像细节的能力很可能会受到牵连。Bagel和OmniGen2则在两个方向上都保持了相对均衡的水平，是"全能选手"的代表。

---

五、图像编辑能力大测评：改得对和改得好是两回事

图像编辑是三项能力中最复杂的一项，它要求模型既要看懂原图，又要理解文字指令，还要生成既符合指令又保持原图风格的新图像。研究团队只测试了原生支持编辑能力的模型，包括DeepGen、Bagel、OmniGen2和Emu3.5。

Emu3.5在编辑任务上的表现最为全面，在GEdit-Bench（英文和中文版本）和ImgEdit（含单轮与多轮编辑）上均拿到最高分。特别是在多轮编辑（相当于用户多次发出修改指令，模型需要记住之前所有的修改历史）上，Emu3.5的优势更加明显：4.89分对比Bagel的4.45分和OmniGen2的3.27分。这说明Emu3.5在处理连续对话式编辑任务时，具备更强的状态追踪和连贯性维持能力。

研究团队在分析中发现了一个贯穿多个模型的共同弱点：语义正确性和感知质量是两个可以相互独立的维度。OmniGen2的感知质量分（图像看起来是否真实、好看）高达7.18，但语义正确性分（图像是否真的做了用户要求的修改）只有6.49，差距明显。这就好比一个装修师傅，活干得很漂亮，刷的墙面光滑锃亮，但你让他把白墙刷成蓝色，他却刷成了绿色——结果好看，但不对。当前多数模型都更擅长维持视觉质量，而在精准执行语义修改指令上存在明显短板。

跨语言方面，DeepGen和Emu3.5在中英文指令下的表现基本一致，说明它们的多语言指令理解能力比较稳健。OmniGen2在中文语义正确性上（6.25）比英文（6.49）有明显下滑，说明其在中文指令理解上还存在对齐不足的问题。Bagel则在中文测试上反而略有提升，研究团队推测这可能与Bagel训练数据中中文内容的比例有关。

---

六、跨任务综合评测：现有模型的集体"盲区"

UEval和Uni-MMMU是两套专门为"真正统一"的多模态模型设计的评测基准，它们考察的是那些需要模型同时动用理解和生成能力的复杂任务。

结果相当令人意外——即便是Bagel这样在单项测试中表现最强的模型，在某些跨任务题目上也几乎完全失灵。以迷宫图像生成为例（给模型一道迷宫，让它生成对应的解法图），Bagel的得分只有0.004，约等于零。在滑动拼图（经典的数字华容道）解题上，得分是0.000。相比之下，Bagel在拼图重组（把打乱的图像碎片正确排列）上得到了0.660，在科学图表推理上得到了0.592，这两类任务的共同点是答案可以通过直接的视觉对应或语义推理得出，而不需要对结构状态进行一步一步的迭代操作。

这个对比揭示了当前多模态模型的一个根本性限制：它们在表示层面上统一了视觉和语言，但缺少对中间状态的显式追踪机制、逐步推理能力和可控生成能力。换句话说，它们能把很多东西"塞进"同一个大脑，但这个大脑还没有学会"一步一步想清楚再做"。

---

七、后训练实验：那些"教训"往往比进步更有价值

后训练是指在模型完成基础训练之后，针对特定任务或能力进行的进一步优化训练。研究团队用TorchUMM对Bagel、Janus-Pro、OmniGen2、BLIP3-o、TokenFlow和Show-o2等多个模型，分别应用了SFT、RecA、UniCoT、IRG和UniGame五种后训练方法，然后在生成、理解和编辑三类任务上全面测评，得到了一批非常有警示意义的结论。

第一个结论是，最常用的监督微调（SFT）并不是一个可靠的全面提升手段。在Bagel上，SFT把MMMU的准确率从0.519小幅提升到了0.526，看起来有进步，但同时把MMBench从0.843降到了0.820，MM-Vet从65.9降到了61.2，图像生成的WISE分从0.399骤降到0.227。更极端的例子出现在TokenFlow上：SFT之后，DPG-Bench的得分从71.29跌到了22.16，几乎是腰斩，而GenEval的分数几乎没有变化。Show-o2经过SFT后，三个生成基准指标全线下滑。这说明SFT很容易让模型在某个特定方向上"过度学习"，代价是在其他方向上退步。

第二个结论是，同一种后训练方法在不同模型上的效果差异极大，没有一种方法能稳定地在所有模型上都带来改善。以IRG为例，在Bagel上，它不仅拉低了生成测试（GenEval从78.81降到72.06），还严重伤害了理解能力（MMMU从0.519降到0.480），同时让跨任务评测的UEval分数从30.9跌到了9.1。这种大规模的多方向退步，在不使用统一评测框架的情况下，很可能不会被发现，因为发布者只会挑选表现好的指标汇报。

第三个结论是，不同能力维度对后训练的敏感度是不同的。图像生成能力最容易被扰动：UniGame让Bagel的GenEval从78.81提升到了85.8，但同时把DPG-Bench从84.11拉到了65.77，一个指标涨、一个指标跌，且跌幅更大。图像理解能力相对稳定，各种后训练方法对MMMU分数的影响通常在几个百分点以内。图像编辑能力的变化则是"混沌"的——RecA和UniCoT在GEdit上有小幅改善，IRG则带来了明显退步，没有一种方法能稳定地推动编辑能力全面提升。

这些发现共同指向一个核心观点：对多模态模型进行后训练时，如果只盯着一两个测试指标看，极容易被误导，以为某种方法真的在整体上提升了模型能力，而实际上只是换了一种"偏科"方式。

---

八、架构统一程度越高，能力就越强吗？

研究团队专门针对这个问题设计了一组分析，结果打破了一个直觉上很容易接受的假设。

三个被拿来对比的模型分别是MMaDA、Show-o2和OmniGen2，它们在"架构统一程度"上呈现出明显的梯度差异。MMaDA的统一程度最高，它把文字和图像都处理成同一种标记序列，在同一个扩散语言模型框架内完成所有任务，理论上是最"纯正"的统一多模态模型。Show-o2居中，保留了统一的标记空间，但文字和图像的生成过程走不同的"出口"。OmniGen2统一程度最低，它用一个视觉语言模型来理解输入，再驱动一个独立的视觉生成器输出图像，是比较模块化的设计。

如果"统一程度越高意味着能力越强"这个假设成立，那应该是MMaDA表现最好，其次是Show-o2，OmniGen2最差。但实际结果恰恰相反。在UEval的两个典型任务上——一个要求模型画出"如何画卡通狗"的分步骤教程，另一个要求模型画出Transformer神经网络架构图——OmniGen2是三者中唯一一个能够认真尝试完成任务的模型，得分也最高。在第一个任务上，OmniGen2得到0.79分，Show-o2只有0.46分，MMaDA只有0.29分。在第二个任务上，三者都挣扎，但OmniGen2给出了一个勉强像样的结构图（0.13分），而Show-o2只有0.07分，MMaDA完全没有产出有效输出（0.00分）。

研究团队在解释这个现象时非常谨慎，明确指出这个结果不能简单地理解为"统一架构是坏的"。这三个模型不仅架构统一程度不同，它们还继承了不同的基础模型、经过了不同的训练数据和优化流程。MMaDA基于LLaDA-8B构建，Show-o2继承自Qwen2.5-7B-Instruct，OmniGen2继承自Qwen2.5-3B-Instruct。这些基础的差异本身就会带来能力上的差距。真正值得注意的教训是：统一程度作为一个架构特征，其实际效果目前还被各种其他因素所掩盖，不能单独成为评价模型优劣的可靠依据。

---

九、统一训练对模型"底色"的改变

研究团队还做了一项更深入的分析：当一个多模态模型从某个强基础模型初始化，然后经过联合多模态训练之后，原来那个基础模型的行为特征还剩下多少？

研究方法是这样的：从MathVista基准中取出200个问题，用另一个大型语言模型对每道题生成两个意思完全相同但措辞不同的变体，这样每道题就有三个版本。然后让目标模型分别回答这三个版本，把答案转换成向量，计算三个答案之间的相似程度——如果模型面对措辞不同但意思相同的问题时，给出的答案差异很大，说明它对这类题目的理解不够稳定；如果答案很一致，说明它的理解能力比较鲁棒。同时，研究团队还深入模型内部，每隔五层提取一次中间状态，看看模型在"思考过程"中的一致性。

对比了两对组合：OmniGen2和它的基础模型Qwen2.5-VL-3B-Instruct（统一程度较低的一对），以及Show-o2和它的基础模型Qwen2.5-VL-7B-Instruct（统一程度较高的一对）。

结果是：OmniGen2的答案一致性分布和内部状态轨迹，与它的基础模型几乎完全重叠——换句话说，OmniGen2的联合训练对原基础模型的行为影响非常小，它的"底色"基本上被完整保留了下来。Show-o2则不同：它的基础模型Qwen2.5-VL-7B-Instruct具有非常稳定、高度一致的答案分布，而Show-o2自己的一致性分布要宽散得多，说明相同问题换一个说法，Show-o2更容易给出不同的答案；在内部状态上，Show-o2也明显偏离了基础模型的轨迹，起点更低，中间层的一致性也更差。

这个发现揭示了统一训练的一个隐蔽代价：越是激进地把多种任务捆绑在一起训练，越可能对模型原有的稳定能力造成干扰。适度的模块化可能是在保留原有能力的同时获得多模态扩展能力的更稳妥路径，而完全融合的统一训练要发挥出理论上的优势，需要足够强的数据和优化配方来抵消跨任务干扰带来的负面影响。

---

十、TorchUMM的工程设计：如何让不同的模型"说同一种语言"

在代码层面，TorchUMM的核心抽象是一个叫做BackboneAdapter的协议接口。每一个被支持的模型，不管内部架构多复杂，都必须实现三个基本方法：一个用来加载模型权重，一个用来执行推理生成，再加上一个模型名称标识符。这就好比不管你家的电器是哪个品牌、什么功能，只要插头符合国标，就都能插在同一个插座上。

在配置系统上，TorchUMM采用了三层YAML配置文件的设计。推理配置负责指定模型路径和生成参数（比如扩散步骤数、引导强度等）；评测配置负责把模型和测试基准绑定在一起，指定输出目录和评分方式；后训练配置则定义训练方法、优化器设置和检查点保存频率。切换模型测试时，用户只需要改一行配置文件中的模型名称和路径，不需要改任何代码。

执行流程上，TorchUMM把整个过程分为推理、评测和后训练三个阶段。推理阶段负责把用户的输入（图像、文字、任务类型）标准化成统一格式，然后分发给对应的任务处理器。评测阶段通过命令行工具调用，自动加载配置、迭代数据集、保存结构化输出，双阶段评测（先生成再评分）也被以轻量包装器的形式原生支持。后训练阶段的代码与评测代码完全隔离，训练完成的检查点可以直接通过修改评测配置的模型路径来进行测试，无缝衔接。

扩展性方面，加入一个新模型只需要实现一个适配器子类并注册，加入新的测试基准只需要实现一个数据处理和评分脚本，加入新的后训练方法只需要在指定目录下实现训练逻辑并注册入口，三件事都不需要触碰框架的核心代码。

---

说到底，TorchUMM这项工作的价值不只是提供了一个测试工具，更重要的是它系统性地揭示了一个被整个领域长期忽视的问题：当我们宣称某个新方法提升了多模态AI的能力时，我们真的测全了吗？单项成绩亮眼、整体退步悄无声息的现象，在这项研究中出现的频率之高，足以让所有人停下来重新思考评测方式的可靠性。

这对普通用户的影响可能并不那么直接，但对那些依赖AI模型做决策的场景来说意义重大。一个在某项指标上表现优秀但在其他维度上存在隐性退步的模型，如果被当作"全面进步"的成果推向应用，可能会带来意料之外的风险。统一评测框架不是锦上添花，而是确保研究进展真实可靠的基础设施。

这项研究本身也留下了很多开放性问题值得继续探索：统一程度更高的架构真的更有潜力吗？在控制了基础模型和数据之后，单纯的架构统一会带来什么效果？有没有一种后训练方法能够在所有维度上都带来稳定提升而不是偏科优化？随着TorchUMM的开源，研究社区有了一个可以用来回答这些问题的共同平台。感兴趣的读者可以通过arXiv编号2604.10784查阅完整原文，或访问GitHub上的AIFrontierLab/TorchUMM项目直接体验这套工具。

---

Q&A

Q1：TorchUMM支持哪些多模态模型，具体能做什么测试？

A：TorchUMM目前支持14个主流多模态模型，包括Bagel、OmniGen2、Emu3、Emu3.5、Janus系列、Show-o系列、BLIP3-o、TokenFlow、DeepGen和MMaDA。测试内容覆盖图像理解、图像生成和图像编辑三大任务，整合了12套基准数据集，所有模型在完全相同的环境下统一评测，结果可以直接对比。

Q2：多模态模型做了监督微调之后为什么反而会在某些测试上退步？

A：监督微调让模型在特定任务的训练数据上过度学习，相当于一个学生为了应付某类题目反复刷题，结果大脑"挤掉"了其他知识的存储空间。TorchUMM的跨任务评测系统性地记录了这种现象，比如Bagel经过SFT后WISE生成分从0.399跌到0.227，TokenFlow的DPG-Bench从71.29跌到22.16，而在没有统一评测框架时这类退步很容易被研究者忽略。

Q3：架构统一程度高的多模态模型是否就意味着能力更强？

A：TorchUMM的研究结果表明，架构统一程度和实际能力之间没有简单的正比关系。在UEval跨任务测试中，架构统一程度最低的OmniGen2反而表现最好，统一程度最高的MMaDA表现最差。研究团队指出，这与三个模型继承的基础模型不同、训练数据不同有关，统一架构的潜在优势目前仍被其他因素所掩盖，在严格控制变量之前无法做出确定性结论。

卡内基梅隆大学等突破：多模态AI实现统一测试基准平台建立突破

Chromatic：揭秘广谱注入Chromium/V8的神奇修改器，让你的浏览器应用重获新生！

以练代学：用竞赛真题学算法——并查集

瑞芯微(EASY EAI)RV1126B 启动logo更换方法

【Fabric网络】堆叠组网方案之CSS和iStack

清华腾讯联手让机器人“读懂“人类动作

如何高效解决QQ音乐加密格式问题：macOS平台QMCDecode完整实践指南