AI基准测试解析:GPQA、SWE-bench与聊天机器人竞技场:它们实际测量什么?
什么是AI基准测试?
基准测试只是一个标准化测试。一组固定的问题或任务,以相同的方式、相同的评分标准给予每个AI模型。其理念是,如果每个人都参加相同的测试,你就可以公平地比较结果。但AI社区开始称之为“刷榜”的做法:通过评估选择、挑选设置和训练策略,从基准测试中榨取每一分可能的分数,却不一定会改进模型。
MMLU与MMLU-Pro:知识测试
它是什么:超过15,000道多选题,涵盖57个学科:法律、医学、化学、历史、经济学、计算机科学。每题四个选项。
一个真实问题示例:
一名60岁男性出现进行性无力、反射减弱和双腿肌束颤动。MRI显示前角细胞退化。以下哪个是最可能的诊断? (A) 多发性硬化症 (B) 肌萎缩侧索硬化症 © 吉兰-巴雷综合征 (D) 重症肌无力
模型输出一个字母。测试运行者检查是否与答案键匹配。
分数如何计算:在每个问题之前,模型会看到5个带有正确答案的示例问题(称为5次提示)。然后是真正的问题。分数 = 正确答案数 ÷ 总问题数,以百分比表示。
为什么它在2026年几乎没用:顶级模型现在在MMLU上得分超过88%。GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro都集中在87%以上。该测试已无法区分它们。研究人员因此构建了MMLU-Pro:相同主题,更难的问题,十个选项而非四个,选项设计得即使对知识渊博的人类来说也看似合理。在MMLU-Pro上,模型之间的差距再次显现。→ 当你在2026年的新闻稿中看到MMLU时,它大多是凑数的。它也是最可能因训练数据污染而虚高的基准:模型已经接触了三年与MMLU风格问题高度重叠的互联网数据。
GPQA Diamond:科学推理测试
这是当今最可信的学术基准。其构建方式使其值得信赖。
问题如何制作:研究人员聘请了生物学、物理学和化学领域的博士科学家。每位科学家在自己的领域内写一个问题。然后,同领域的第二位博士科学家尝试回答。如果第二位专家答错了,问题就通过了筛选。接着,三个聪明但非领域专家的人,在有无限制互联网接入和30分钟时间的情况下,尝试回答。如果他们也失败了,这个问题就进入了Diamond子集。
结果:198个要求你实际推理硬科学的问题。你不能通过谷歌搜索得到答案。答案不在维基百科中。
一个真实问题示例:
两个能量分别为E1和E2的量子态,寿命分别为10⁻⁹秒和10⁻⁸秒。我们希望清晰区分这两个能级。以下哪个可能是它们的能量差,以便能清晰分辨? (A) 10⁻⁸ eV (B) 10⁻⁹ eV © 10⁻⁴ eV (D) 10⁻¹¹ eV
要回答这个问题,你需要知道量子力学中的能量-时间不确定性原理,计算能级的自然线宽,并检查哪个能量差足够大以分辨它们。答案是(A),但你无法通过搜索找到。你必须推导出来。
分数如何计算:与MMLU相同的字母选择系统。模型被要求逐步推理,并必须以“ANSWER: LETTER”结束其响应——仅限大写字母。如果模型不遵循该确切格式,无论推理是否正确,该问题都计为零分。这个严格的格式规则是故意的:它迫使模型给出明确答案,而不是模棱两可。
基准测试数据:
随机猜测:25%
有互联网接入的聪明非专家:34%
博士级领域专家:65%
GPT-4发布时(2023年):39%
某机构Muse Spark现在:89.5%
某机构Gemini 3.1 Pro:94.3%
某机构Claude Opus 4.6:92.8%
三年间从39%到89%的跃升是真实的。这些模型确实在科学推理方面变得更好了。但在198个问题上,Muse Spark仍然比Gemini落后约5个百分点。这大约相差10个问题。某机构称之为“有竞争力”,这在技术上准确。
HumanEval:基础编码测试
它是什么:164个Python编程问题。每个问题是一个函数签名,附带一个解释函数功能的文档字符串。
一个真实问题示例:
[此处为HumanEval Python代码块的描述,无法直接复制]
模型编写函数体。然后一个自动化测试运行器针对10-15个隐藏测试用例执行代码,这些用例有已知的正确输出。要么所有测试用例都通过,要么该问题失败。
分数如何计算:主要指标是pass@1:模型的首次尝试是否通过了所有隐藏测试?分数 = 代码有效的题目数 ÷ 164个总题数。
为何过时:顶级模型现在能解决这164个问题中的90%以上。它们有多年时间来训练HumanEval风格的任务。研究人员公开质疑有多少模型可能在训练中见过这些确切的问题。在2026年以HumanEval领先,就像汽车公司用2015年的测试来主导其安全宣传一样。
SWE-bench:真正的软件工程测试
它是什么:来自真实开源仓库的真实GitHub问题。模型获得问题描述和完整代码库,并且必须生成一个修复该错误的代码补丁(差异文件)。
一个真实任务示例:
一位开发者在sympy数学库中提交了一个GitHub问题:“当在某些条件下对包含嵌套Piecewise对象的表达式调用时,simplify()函数返回错误结果。”
模型获取问题文本,浏览包含数千个文件的代码库,识别错误来源,并编写补丁。该补丁会自动应用到代码库,并运行现有测试套件以检查修复是否有效且未破坏其他功能。
分数如何计算:在问题级别通过/失败。分数 = 模型补丁通过所有测试的问题百分比。
为什么这个基准比HumanEval更重要:因为没有记忆捷径。仓库是真实的,错误是真实的,评估环境受到严格控制。你要么修复了错误,要么没有。
Muse Spark在此的表现:某机构自己的博客文章承认“当前性能差距,特别是在编码工作流程中”。SWE-bench几乎是肯定显示出这一点的地方。某机构Claude Opus 4.6目前领先大多数编码评估。
Humanity’s Last Exam:前沿推理测试
它是什么:约2500个由研究人员编写的问题,专门设计用于超出当前AI能回答的范围:博士级别及以上,涵盖数学、科学、历史和法律。
为什么Muse Spark会强调它:在其“沉思”模式下,该模式会启动多个子代理并行处理问题的不同部分,Muse Spark得分为50.2%。GPT-5.4在其最高努力模式下得分为43.9%。某机构的Deep Think模式得分为48.4%。
这是Muse Spark在任何基准测试中最合理的领先优势。差距是真实的(比GPT-5.4高6个多点),且基准测试确实很难。一个注意事项:沉思模式比标准响应消耗更多的计算资源。你需要在时间和API成本上为此性能付费。
HealthBench:临床推理测试
它是什么:由医生评估的临床和医学推理任务。问题涵盖患者症状解读、药物相互作用、治疗决策和健康信息准确性。
分数如何计算:与自动化基准不同,HealthBench的答案根据医生定义的标准进行评分。分数代表符合临床准确性要求的答案百分比。
数据:
某机构Muse Spark 42.8%。
某机构GPT-5.4 40.1%。
某机构Gemini 3.1 Pro 20.6%。
42.8%。GPT-5.4得分为40.1%。Gemini 3.1 Pro得分为20.6%。这是Muse Spark在任何基准中最有据可查的领先优势。在一个由医生评分的测试中,领先Gemini 22个百分点是显著的。
Chatbot Arena:人类偏好测试
这个基准与其他所有基准都不同,理解它的工作原理可以解释某机构Llama 4丑闻。
它测试什么:人类用户是否更喜欢一个模型的响应而不是另一个的。
它如何工作:两个匿名模型收到相同的提示。一个真实用户阅读两个响应,并选择他们更喜欢哪一个。进行数百万次这样的成对比较。结果输入到一个称为Bradley-Terry的统计模型中,该模型将胜/负记录转换为ELO分数:与用于国际象棋选手排名的系统相同。
如果模型A在60%的比较中击败模型B,模型A会获得更多分数。随着时间的推移,经过足够的比较后,排名会稳定成一个排行榜。
为什么这个基准是可操纵的:人类用户倾向于更喜欢长篇幅、听起来自信且格式良好的响应,即使更短、更准确的答案对他们更有帮助。一个添加热情、使用粗体文本、给出精心结构响应的模型,在LMArena上会比一个用两句话给出直接、正确答案的模型得分更高。
Llama 4事件
当某机构在2025年4月发布Llama 4时,其公告称该模型在LMArena上排名第二,仅次于某机构Gemini 2.5 Pro,ELO得分为1417。这个数字在技术上是准确的,但获得该分数的模型并非向公众发布的那个。
某机构提交给LMArena的模型名为“某机构-Llama-4-Maverick-03-26-Experimental”。后来将其与公开可下载版本进行比较的研究人员发现了一致的行为差异:
- 实验版本(LMArena):冗长的回应,大量使用表情符号, elaborate formatting, dramatic structure, 即使是简单问题也会长篇大论。
- 公共版本(你实际会用的):简洁、平淡、直接、无表情符号。
LMArena的投票系统可靠地偏好第一种风格。真实用户在真实用例中偏好第二种风格。当实际的公共模型被单独添加到排行榜时,它排名第32位。
另一个值得了解的数字:当LMArena开启“风格控制”,去除格式和长度优势后,Llama 4 Maverick从第二名跌至第五名。剥离了其呈现包装的模型内容质量,远没有那么令人印象深刻。
LMArena公开表示:“某机构对我们政策的解释与我们对模型提供者的期望不符。某机构本应更清楚地说明‘某机构-Llama-4-Maverick-03-26-Experimental’是为优化人类偏好而定制的模型。” 他们随后更新了提交规则。
至于ARC-AGI:一个旨在测试真正新颖推理(而非模式匹配)的基准,Llama 4 Maverick在ARC-AGI-1上得分为4.38%,在ARC-AGI-2上得分为0.00%。这从未出现在新闻稿中。
AI实验室如何操纵基准分数:古德哈特定律与“刷榜”
经济学中有一条原则叫做古德哈特定律:当一个度量成为目标时,它就不再是一个好的度量。
通俗地说:一旦大家都同意GPQA Diamond是重要的数字,实验室就开始专门针对GPQA Diamond进行优化。分数上升,但实际能力可能丝毫未变。
这在AI社区中现在有了一个名字:“刷榜”。这是通过提高分数但不一定改进模型的技术,从基准测试中榨取每一分可能分数的做法。其中一些技术是合法的工程,另一些则更接近于某机构对LMArena所做的操纵。
这就是“刷榜”的实际操作:
- 挑选要发布的基准:每个模型都会在内部接受数十个基准的评估。出现在新闻稿中的是模型表现良好的那些。其余的则消失。
- 选择有利的评估设置:许多基准可以以不同方式运行:不同的提示风格、事先显示的不同数量的示例问题、不同的温度参数。实验室在内部运行所有变体,并发布最佳结果。
- 在基准相关数据上训练:如果你知道一个基准测试量子力学推理,你可以确保你的训练集大量包含量子力学内容。问题本身不在训练数据中,但回答它们所需的知识已饱和。
- 基准污染:有时实际的基准问题或近乎相同的变体最终会出现在训练数据中。当模型在训练期间看到问题和答案时,它基本上就是记住了测试。分数反映的是记忆,而非推理。
- 多数投票和重复采样:一些实验室多次运行每个基准问题,并取最常见的答案。一个在一次尝试中得分为80%的模型,在32次尝试中可能得分为88%。某机构特别披露,他们没有为Muse Spark报告的数字这样做。
古德哈特定律在AI中的最深层次问题是它创造了一个棘轮效应。每个新模型都需要击败前一个模型的基准分数,否则就被宣布为失败。因此,每次发布都更多地针对现有的基准进行优化,这使这些基准随着时间的推移信息量减少,从而推动创建更难的基准,然后这些基准也被优化。
基准测试仍然无法告诉你什么
- 速度:GPQA Diamond没有说明模型是在1秒内响应还是在10秒内。
- 成本:一个在每百万令牌15美元下得分92%的模型,与一个在每百万令牌1美元下得分89%的模型,根据你运行的体量,是不同的选择。
- 一致性:一个在基准上平均得分90%但2%的时间产生灾难性错误答案的模型,与一个稳定得分85%的模型,其风险状况不同。基准报告的是平均值。平均值掩盖了极端情况。
- 你的特定任务:这些基准测试都不是为你的文档、你的提示或你的用户设计的。一个在GPQA Diamond上占主导地位的模型,在处理保险表单提取任务时,可能比一个在特定领域数据上训练的、更小更便宜的模型表现更差。
为你自己的用例评估AI模型
你实际上可以自己评估最适合你的模型。
拿你最有代表性的十个或二十个任务:你实际会发送给模型的真实提示、文档或问题。在你正在考虑的每个模型上运行这些确切的输入。自己(或让领域专家)对输出进行评分。
那一个定制的测试将比新闻稿中的任何基准表告诉你更多。因为基准告诉你一个模型声称自己站在哪里。你的测试集告诉它实际上必须在哪里表现。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)