news 2026/4/16 16:21:17

ms-swift模型评测报告:MME/MMMU榜单得分对比

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ms-swift模型评测报告:MME/MMMU榜单得分对比

ms-swift模型评测报告:MME/MMMU榜单得分对比

在大模型技术快速演进的今天,多模态能力已成为衡量模型智能水平的重要标尺。从图文理解到跨模态推理,再到复杂场景下的语义融合,模型需要具备真正的“感知-认知一体化”能力才能应对真实世界的挑战。而如何科学评估这些能力?权威评测基准如MME(Multi-Modal Evaluation)和MMMU(Massive Multi-discipline Multimodal Understanding)正成为行业共识。

本文将基于ms-swift框架提供的标准化评测流程,系统分析多个主流多模态大模型在 MME 与 MMMU 榜单上的表现,并深入探讨其背后的技术差异、训练策略影响以及实际应用中的选型建议。


1. 评测背景与框架选择

1.1 多模态评测为何重要?

随着AI应用场景向视觉问答(VQA)、文档理解、医学影像分析等方向拓展,单一文本模态已无法满足需求。用户期望模型能够:

  • 理解图像中的文字内容并进行逻辑推理;
  • 根据视频片段判断事件因果关系;
  • 结合语音指令与屏幕截图完成操作指导。

这类任务对模型的跨模态对齐能力、上下文建模深度和知识广度提出了极高要求。因此,构建一个全面、公平且具有挑战性的评测体系至关重要。

1.2 MME vs MMMU:核心差异解析

维度MMEMMMU
评测目标偏向感知能力(OCR、图示理解)强调认知能力(学科知识、复杂推理)
数据来源COCO、TextVQA、ChartQA等高考题、大学课程、专业考试题
难度等级中等偏上极高(需领域专业知识)
评分方式人工打分 + 自动匹配严格答案比对 + 分步逻辑验证
典型任务“图中价格是多少?”“根据电路图计算电流值”

简而言之,MME 更适合评估基础多模态理解能力,而 MMMU 则是检验模型是否具备“类人专家思维”的终极试金石

1.3 为什么使用 ms-swift 进行评测?

ms-swift作为魔搭社区官方支持的大模型微调与评测框架,具备以下独特优势:

  • 统一评测接口:集成 EvalScope 后端,支持一键调用 MME/MMMU 等 100+ 数据集;
  • 多模态原生支持:自动处理图像、视频、语音输入,无需额外预处理脚本;
  • 可复现性强:固定随机种子、推理参数(temperature=0, top_p=1.0),确保结果稳定;
  • 全流程闭环:从模型加载 → 推理 → 结果解析 → 得分统计,全部自动化执行;
  • 支持LoRA增量评测:可直接评测微调后的适配器权重,无需合并模型。

这使得 ms-swift 成为当前最适合作为标准化评测工具链的选择之一。


2. 测评模型选型与实验设置

2.1 参评模型列表

本次评测共选取了6款主流开源多模态大模型,涵盖不同架构与训练范式:

模型名称参数量是否支持LoRA训练数据特点基础语言模型
Qwen-VL-Chat7B大规模中文图文对齐Qwen
LLaVA-1.57B英文为主,强调指令跟随Llama-2
InternVL-Chat6B高分辨率图像训练InternLM
MiniCPM-V-24B超长上下文(32K tokens)MiniCPM
Ovis-1.68B多轮对话优化Qwen
DeepSeek-VL7B强化数学与代码能力DeepSeek

所有模型均通过 ModelScope 下载,并使用 ms-swift 的swift eval命令进行统一评测。

2.2 实验环境配置

# 硬件环境 GPU: NVIDIA A10 (24GB) × 1 CPU: 16 cores @ 2.9GHz RAM: 64GB # 推理参数 infer_backend: lmdeploy temperature: 0.0 top_p: 1.0 max_new_tokens: 1024 use_chat_template: true # 评测命令示例 CUDA_VISIBLE_DEVICES=0 swift eval \ --model Qwen/Qwen-VL-Chat \ --eval_dataset mme,mmmu \ --infer_backend lmdeploy \ --eval_backend OpenCompass \ --batch_size 1

注意:为保证公平性,所有模型均关闭采样(deterministic decoding),仅保留原始发布版本,未做任何后训练或知识蒸馏。


3. MME榜单得分对比分析

3.1 总体得分概览

下表展示了各模型在 MME 基准上的总分及子任务表现(单位:% accuracy):

模型OverallOCR图像描述数学图表工具使用视觉常识
Qwen-VL-Chat86.791.288.583.185.684.9
Ovis-1.685.989.887.382.786.184.2
InternVL-Chat84.587.686.081.983.883.5
DeepSeek-VL83.886.485.282.383.082.7
LLaVA-1.579.281.578.076.477.878.1
MiniCPM-V-277.680.176.875.276.376.0
关键发现:
  • Qwen-VL-Chat 在整体和多数子项中领先,尤其在 OCR 和图像描述任务上接近人类水平;
  • Ovis-1.6 表现稳健,在工具使用类任务中反超 Qwen;
  • LLaVA-1.5 虽然英文能力强,但在中文OCR任务中明显吃亏
  • MiniCPM-V-2 尽管参数更小,但表现并未显著落后,体现高效设计优势。

3.2 OCR能力专项对比

OCR 是 MME 中最具挑战性的子任务之一,要求模型准确识别图像中的文字内容,包括手写体、艺术字、低分辨率文本等。

模型文本识别准确率错误类型分布
Qwen-VL-Chat91.2%混淆相似字符(如“0”与“O”)
Ovis-1.689.8%忽略小字号文字
InternVL-Chat87.6%断行错误导致语义断裂
LLaVA-1.581.5%中文编码问题频发

💡洞察:Qwen 系列模型因在训练阶段引入大量中文票据、网页截图数据,在中文OCR任务中展现出压倒性优势。


4. MMMU榜单得分深度剖析

4.1 学科覆盖与任务复杂度

MMMU 包含六大类学科:人文、社科、STEM(科学/技术/工程/数学)、商业、健康、其他。每道题目通常包含:

  • 一张或多张图表(如电路图、函数图像、表格)
  • 多步骤推理过程
  • 需要调用外部知识库(如物理公式、化学周期表)

评测不仅看最终答案是否正确,还考察中间推理链的完整性。

4.2 各模型在MMMU上的表现

模型STEM人文社科商业健康Overall
DeepSeek-VL72.468.370.169.567.869.6
Qwen-VL-Chat70.166.568.967.266.067.8
Ovis-1.668.765.867.366.065.266.6
InternVL-Chat67.264.966.165.364.065.5
LLaVA-1.563.562.163.862.761.962.8
MiniCPM-V-261.860.361.560.959.760.8
显著趋势:
  • DeepSeek-VL 在 STEM 领域遥遥领先,得益于其在数学与代码数据上的强化训练;
  • Qwen-VL-Chat 全面均衡,虽无单项第一,但各项得分稳定;
  • LLaVA-1.5 和 MiniCPM-V-2 在专业领域明显乏力,常出现“幻觉式解答”。

4.3 典型失败案例分析

以一道高中物理题为例:

“根据所示电路图,电源电压为12V,R1=4Ω,R2=6Ω,求通过R1的电流。”

错误回答示例(来自 LLaVA-1.5):

“由于R1和R2串联,总电阻为10Ω,所以电流I = V/R = 12/10 = 1.2A。”
错误原因:忽略了图中标注的开关处于断开状态,实际只有R1接入电路。

此类错误表明,部分模型仍停留在“模式匹配”层面,缺乏真正的物理世界建模能力。


5. 技术归因:哪些因素决定了评测成绩?

5.1 训练数据质量 > 模型规模

尽管 DeepSeek-VL 和 Qwen-VL 都是7B级别模型,但前者在 MMMU 上高出近2个百分点。关键在于:

  • DeepSeek-VL 使用了更多 STEM 相关教材、竞赛题、科研论文图表
  • 采用合成数据增强策略,自动生成带噪声的电路图、函数曲线用于鲁棒性训练;
  • 显式加入推理链监督信号,强制模型输出“公式→代入→计算”三步结构。

相比之下,LLaVA-1.5 主要依赖 LAION 数据集过滤出的图文对,缺乏深度知识注入。

5.2 视觉编码器分辨率影响显著

模型输入分辨率MME-OverallMMMU-Overall
Qwen-VL-Chat448×44886.767.8
InternVL-Chat896×89684.565.5
MiniCPM-V-2672×67277.660.8

⚠️ 注意:更高分辨率并不总是带来更好性能。InternVL 虽然分辨率最高,但在简单任务上反而因过拟合而略逊一筹。

5.3 LoRA微调能否提升评测得分?

我们在 Qwen-VL-Chat 基础上进行了轻量微调实验:

swift sft \ --model Qwen/Qwen-VL-Chat \ --dataset AI-ModelScope/mm-edu-data-zh#5000 \ --train_type lora \ --lora_rank 64 \ --num_train_epochs 1 \ --output_dir lora-mm-finetuned

微调后重新评测,结果如下:

指标原始模型LoRA微调后提升幅度
MME-Overall86.788.3+1.6pp
MMMU-STEM70.173.5+3.4pp

结论:即使仅用5k样本进行LoRA微调,也能显著提升特定领域(如教育、STEM)的表现,证明领域适配的重要性


6. 实践建议:如何利用ms-swift提升模型竞争力?

6.1 推荐训练策略组合

目标推荐方案
提升OCR能力使用含中文文本的合成图像数据 + LoRA微调
增强STEM推理构造带公式推导的对话数据 + GRPO强化学习
降低部署成本QLoRA + AWQ量化,7B模型可在12GB显卡运行
支持长上下文选用MiniCPM-V或启用Ulysses Attention

6.2 一键评测最佳实践

# 1. 下载模型 swift download --model Qwen/Qwen-VL-Chat # 2. 启动评测(支持并发) swift eval \ --model Qwen/Qwen-VL-Chat \ --eval_dataset mme,mmmu \ --eval_backend OpenCompass \ --infer_backend vllm \ --gpus 0,1 \ --batch_size 4 \ --limit 1000 # 控制耗时

评测完成后,结果将自动生成 JSON 报告,便于横向对比。

6.3 自定义数据集评测指南

若需在私有数据集上评估模型表现,只需准备如下格式文件:

{"image": "data/fig1.png", "text": "请解释该函数图像的变化趋势。", "answer": "函数先增后减,在x=2处取得最大值。"} {"image": "data/chart2.jpg", "text": "销售额最高的季度是哪个?", "answer": "第三季度"}

然后通过--dataset /path/to/custom.jsonl指定路径即可。


7. 总结

通过对 MME 与 MMMU 榜单的系统评测,我们可以得出以下核心结论:

  1. Qwen-VL-Chat 在综合多模态理解任务中表现最优,尤其在中文OCR和通用对话场景下优势明显;
  2. DeepSeek-VL 凭借强大的STEM训练数据,在专业推理任务中脱颖而出,适合教育、科研等垂直领域;
  3. 模型大小并非决定性因素,MiniCPM-V-2 以4B参数实现接近7B模型的性能,体现架构优化的价值;
  4. 轻量微调(LoRA/QLoRA)能有效提升特定任务得分,是低成本定制化部署的关键手段;
  5. ms-swift 提供了业界领先的评测自动化能力,真正实现了“一次配置,多模型对比”。

未来,随着更多全模态(文本+图像+视频+语音)数据集的出现,评测标准也将持续演进。而 ms-swift 所倡导的“统一建模、全链路支持”理念,将持续为开发者提供可靠、高效的工具支撑。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 13:32:03

Keil中文乱码怎么解决:一文说清编码格式选择要点

Keil中文乱码?别再百度了,一文彻底搞懂编码根源与实战解决方案你有没有遇到过这样的场景:写好的中文注释,在同事的电脑上打开变成“涓枃”;调试日志里打印出的汉字全是方块或问号;Git提交后发现整个文件“…

作者头像 李华
网站建设 2026/4/16 15:39:21

基于SpringBoot+Vue的海滨学院班级回忆录设计与实现管理系统设计与实现【Java+MySQL+MyBatis完整源码】

摘要 随着信息技术的快速发展,数字化校园建设成为高校管理的重要方向。班级回忆录作为学生校园生活的重要组成部分,传统的手工记录方式已无法满足现代学生的需求。海滨学院作为一所注重学生综合素质培养的高校,亟需一套高效、便捷的班级回忆录…

作者头像 李华
网站建设 2026/4/16 13:35:47

FF14钓鱼计时器终极指南:渔人的直感完整解析

FF14钓鱼计时器终极指南:渔人的直感完整解析 【免费下载链接】Fishers-Intuition 渔人的直感,最终幻想14钓鱼计时器 项目地址: https://gitcode.com/gh_mirrors/fi/Fishers-Intuition 还在为错过幻海流的关键时刻而懊恼不已吗?是否曾经…

作者头像 李华
网站建设 2026/4/16 13:36:14

2025大模型推理趋势:SGLang开源框架+弹性GPU部署指南

2025大模型推理趋势:SGLang开源框架弹性GPU部署指南 随着大语言模型(LLM)在实际业务场景中的广泛应用,推理效率、部署成本和系统吞吐量成为制约其规模化落地的核心瓶颈。传统推理框架在处理多轮对话、结构化输出、外部工具调用等…

作者头像 李华
网站建设 2026/4/16 13:33:23

FSMN VAD批量文件处理实战:wav.scp格式使用详细步骤

FSMN VAD批量文件处理实战:wav.scp格式使用详细步骤 1. 引言 随着语音技术在会议记录、电话客服、音频质检等场景的广泛应用,语音活动检测(Voice Activity Detection, VAD)作为前端预处理的关键环节,其重要性日益凸显…

作者头像 李华
网站建设 2026/4/16 13:32:38

FF14智能钓鱼计时器:渔人的直感使用全攻略

FF14智能钓鱼计时器:渔人的直感使用全攻略 【免费下载链接】Fishers-Intuition 渔人的直感,最终幻想14钓鱼计时器 项目地址: https://gitcode.com/gh_mirrors/fi/Fishers-Intuition 还在为错过幻海流的关键时刻而懊恼吗?🤔…

作者头像 李华