【导语:当前AI模型在主流benchmark上表现出色,但在真实工作中却难以发挥作用。由加州大学伯克利分校牵头的研究团队提出新基准Agents’ Last Exam(ALE),测试发现主流模型在ALE最难层级平均完整通过率仅2.6%,揭示了AI在完成复杂专业任务上的差距。】
现有常用基准已无法衡量AI在真实、长流程、具经济价值工作中的表现,研究团队提出新基准Agents’ Last Exam(ALE)。它由250余位行业专家共同开发,收集了1490个覆盖制造、法律、医疗、视觉媒体等多领域的任务,用来测试AI在长期、有经济价值的真实工作流程中的表现。
在ALE最难层级中,主流模型平均完整通过率仅为2.6%。当前表现最好的配置Codex + GPT - 5.5,完整通过率也只有8.6%。研究团队列举了音乐转谱、注塑仿真、绿幕合成等失败案例,指出当前系统的主要瓶颈在于领域知识,而非执行能力。
研究还比较了模型和agent框架的影响,发现更换模型带来的结果差异明显大于更换agent框架,模型选择带来的影响范围大约是agent框架的三倍。
ALE以SOC 2018为职业分类骨架,主要覆盖软件型、数字化专业工作,现阶段任务主要运行在Linux或Windows虚拟机中,且在不同领域覆盖不均衡。公开集目前只占完整任务池一部分,公开子集和完整任务池在各领域通过率相关系数为0.89。
不过,研究团队认为ALE是持续更新的基准,未来任务池会扩展到新工作流和新行业,私有池任务也会定期轮换进入公开集。
编辑观点:新基准ALE为评估AI真实工作能力提供了新视角,主流模型在ALE测试中的不佳表现凸显了其在复杂专业任务上的短板,未来ALE的持续更新有望推动AI在更多领域的应用和发展。