news 2026/6/11 14:32:23

新基准ALE测试:主流AI模型完成复杂专业任务平均通过率仅2.6%

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
新基准ALE测试:主流AI模型完成复杂专业任务平均通过率仅2.6%

【导语:当前AI模型在主流benchmark上表现出色,但在真实工作中却难以发挥作用。由加州大学伯克利分校牵头的研究团队提出新基准Agents’ Last Exam(ALE),测试发现主流模型在ALE最难层级平均完整通过率仅2.6%,揭示了AI在完成复杂专业任务上的差距。】


新基准ALE:衡量AI真实工作能力

现有常用基准已无法衡量AI在真实、长流程、具经济价值工作中的表现,研究团队提出新基准Agents’ Last Exam(ALE)。它由250余位行业专家共同开发,收集了1490个覆盖制造、法律、医疗、视觉媒体等多领域的任务,用来测试AI在长期、有经济价值的真实工作流程中的表现。

ALE考试:主流模型表现不佳

在ALE最难层级中,主流模型平均完整通过率仅为2.6%。当前表现最好的配置Codex + GPT - 5.5,完整通过率也只有8.6%。研究团队列举了音乐转谱、注塑仿真、绿幕合成等失败案例,指出当前系统的主要瓶颈在于领域知识,而非执行能力。

研究还比较了模型和agent框架的影响,发现更换模型带来的结果差异明显大于更换agent框架,模型选择带来的影响范围大约是agent框架的三倍。

ALE不足与未来方向

ALE以SOC 2018为职业分类骨架,主要覆盖软件型、数字化专业工作,现阶段任务主要运行在Linux或Windows虚拟机中,且在不同领域覆盖不均衡。公开集目前只占完整任务池一部分,公开子集和完整任务池在各领域通过率相关系数为0.89。

不过,研究团队认为ALE是持续更新的基准,未来任务池会扩展到新工作流和新行业,私有池任务也会定期轮换进入公开集。

编辑观点:新基准ALE为评估AI真实工作能力提供了新视角,主流模型在ALE测试中的不佳表现凸显了其在复杂专业任务上的短板,未来ALE的持续更新有望推动AI在更多领域的应用和发展。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/11 14:30:22

天若OCR本地版:Windows电脑离线文字识别终极指南

天若OCR本地版:Windows电脑离线文字识别终极指南 【免费下载链接】wangfreexx-tianruoocr-cl-paddle 天若ocr开源版本的本地版,采用Chinese-lite和paddleocr识别框架 项目地址: https://gitcode.com/gh_mirrors/wa/wangfreexx-tianruoocr-cl-paddle …

作者头像 李华
网站建设 2026/6/11 14:27:00

英雄联盟回放管理神器ReplayBook:从青铜到王者的复盘分析革命

英雄联盟回放管理神器ReplayBook:从青铜到王者的复盘分析革命 【免费下载链接】ReplayBook Play, manage, and inspect League of Legends replays 项目地址: https://gitcode.com/gh_mirrors/re/ReplayBook 还在为找不到关键团战而反复拖动进度条吗&#xf…

作者头像 李华
网站建设 2026/6/11 14:26:01

网页端汉字笔顺动画演示与手写描红练习工具包

本文还有配套的精品资源,点击获取 简介:一套开箱即用的汉字学习前端工具,支持简体和繁体字逐笔SVG动画播放、鼠标或触屏拖拽描红练习、实时笔顺对错判断。所有汉字笔画数据已内置,无需额外加载字体或服务端接口,直接…

作者头像 李华
网站建设 2026/6/11 14:25:55

C语言条件运算符(?:)的用法(非常详细,附带示例)

条件运算符也称三目运算符,因为它是C语言中唯一需要 3 个操作数的运算符。条件运算符的基本用法如下: condition ? expression1 : expression2 条件运算符的求值规则为:如果 condition 为真(非零值),则以…

作者头像 李华
网站建设 2026/6/11 14:22:53

汽车级LCD驱动芯片PCA8547:集成电荷泵与温度补偿的工程实践

1. 项目概述:为什么汽车级LCD驱动芯片如此特殊?在汽车座舱里,无论是仪表盘上的数字时速、中控屏的空调状态,还是车门上的车窗指示,背后都离不开一块块或大或小的液晶显示屏。这些屏幕与我们日常消费电子产品的屏幕不同…

作者头像 李华