news 2026/4/16 12:41:07

AI智能体是否已准备好进入职场?新基准测试引发质疑

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI智能体是否已准备好进入职场?新基准测试引发质疑

距离微软CEO萨蒂亚·纳德拉预测AI将取代知识工作已经近两年了——这些白领工作包括律师、投资银行家、图书馆员、会计师、IT人员等职业。

尽管基础模型取得了巨大进展,但知识工作的变革却姗姗来迟。模型已经掌握了深度研究和智能体规划能力,但不知何故,大多数白领工作相对未受影响。

这是AI领域最大的谜团之一——而训练数据巨头Mercor的新研究终于为我们提供了一些答案。

新研究考察了领先的AI模型在执行真实白领工作任务时的表现,这些任务来自咨询、投资银行和法律领域。研究产生了一个名为Apex-Agents的新基准测试——到目前为止,每个AI实验室的成绩都不及格。面对真实专业人士的问题,即使是最优秀的模型也难以答对超过四分之一的问题。绝大多数情况下,模型都给出了错误答案或根本无法回答。

参与研究的研究员布伦丹·富迪表示,模型最大的障碍是跨多个领域追踪信息——这是人类执行大部分知识工作不可或缺的部分。

"这个基准测试的一大变化是我们构建了完整的环境,模拟真实的专业服务环境,"富迪告诉TechCrunch。"我们工作的方式并不是由某个人在一个地方为我们提供所有背景信息。在现实生活中,你需要在Slack、Google Drive和其他各种工具间操作。"对于许多智能体AI模型来说,这种跨领域推理仍然不稳定。

这些场景都来自Mercor专家市场的真实专业人士,他们既提出了问题,也设定了成功回答的标准。浏览这些在Hugging Face公开发布的问题,可以感受到任务的复杂程度。

法律部分的一个问题如下:

在欧盟生产中断的前48分钟内,Northstar的工程团队将一到两个包含个人数据的欧盟生产事件日志捆绑集导出到美国分析供应商……根据Northstar自身的政策,它能否合理地将这一到两次日志导出视为符合第49条?

正确答案是肯定的,但要得出这个结论需要深入评估公司自身的政策以及相关的欧盟隐私法。

这可能连见多识广的人类都会感到困惑,但研究人员试图模拟该领域专业人士的工作。如果大语言模型能够可靠地回答这些问题,它就能有效地取代今天许多律师的工作。"我认为这可能是经济中最重要的话题,"富迪告诉TechCrunch。"这个基准测试非常真实地反映了这些人所做的实际工作。"

OpenAI也尝试通过其GDPVal基准测试来衡量专业技能——但Apex Agents测试在重要方面有所不同。GDPVal测试跨广泛职业的一般知识,而Apex Agents基准测试衡量系统在少数高价值职业中执行持续任务的能力。结果对模型来说更困难,但也更贴近这些工作是否能被自动化。

虽然没有模型证明已经准备好接管投资银行家的工作,但有些明显更接近目标。Gemini 3 Flash在小组中表现最佳,一次性准确率为24%,GPT-5.2紧随其后,准确率为23%。其次,Opus 4.5、Gemini 3 Pro和GPT-5的得分都约为18%。

虽然初始结果不尽如人意,但AI领域有突破挑战性基准测试的历史。现在Apex测试已经公开,对于相信自己能做得更好的AI实验室来说,这是一个公开的挑战——富迪完全期待在未来几个月内看到改进。

"它正在快速改善,"他告诉TechCrunch。"现在可以说它像一个四分之一时间答对的实习生,但去年它是一个只有5%到10%时间答对的实习生。这种年复一年的改善能够如此迅速地产生影响。"

Q&A

Q1:什么是Apex-Agents基准测试?

A:Apex-Agents是由训练数据公司Mercor开发的新基准测试,用于评估AI模型在执行真实白领工作任务时的表现。测试场景来自咨询、投资银行和法律等领域的实际专业人士,重点考察AI在跨多个工具和领域处理复杂任务的能力。

Q2:目前AI模型在职场任务上的表现如何?

A:表现并不理想,即使是最优秀的AI模型也难以答对超过四分之一的专业问题。Gemini 3 Flash表现最佳,一次性准确率为24%,GPT-5.2为23%。大多数情况下,模型都给出错误答案或无法回答,距离取代专业人士还有很大差距。

Q3:AI模型在处理职场任务时的主要困难是什么?

A:最大的困难是跨多个领域追踪信息。在现实工作中,专业人士需要在Slack、Google Drive等多种工具间操作,整合不同来源的信息。而对于智能体AI模型来说,这种多领域推理和信息整合能力仍然不稳定,无法有效模拟真实的工作环境。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/3 20:43:20

地砖屏如何优化展厅空间利用率?

地砖屏 https://www.bmcyzs.com/ 为展厅空间利用带来了革命性的优化思路。它将传统静态的地面转化为一个动态的、可交互的数字界面,打破了展厅设计中地面只能用于行走和承载的传统定式,实现了空间功能在垂直维度上的叠加与融合。 这种多功能整合的核心优…

作者头像 李华
网站建设 2026/4/8 16:20:08

HDFS 入门指南:大数据存储的基石与核心原理

HDFS 入门指南:大数据存储的基石与核心原理 关键词:HDFS、大数据存储、核心原理、分布式文件系统、数据块、NameNode、DataNode 摘要:本文旨在为读者提供一份全面的 HDFS 入门指南。HDFS 作为大数据存储的基石,在分布式数据存储领…

作者头像 李华
网站建设 2026/4/7 9:03:49

【计算机毕业设计案例】基于JAVA的高校食堂在线点餐系统的设计与实现基于springboot框架的校园食堂外卖点餐系统基于springboot的高校食堂点餐系统(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/11 0:24:50

吐血推荐9个一键生成论文工具,自考本科毕业论文轻松搞定!

吐血推荐9个一键生成论文工具,自考本科毕业论文轻松搞定! 自考论文写作的“救星”来了 在自考本科的道路上,毕业论文无疑是一道难以逾越的难关。很多学生在选题、构思、撰写、修改等环节中感到无从下手,尤其是面对高重复率和严格…

作者头像 李华
网站建设 2026/4/12 11:00:38

服装加工ERP系统是什么?它能为企业带来哪些效率提升?

服装加工ERP系统如何提升企业整体运营效率 服装加工ERP系统能够通过多种方式提升企业整体运营效率。首先,系统能够有效地整合信息流、物流和资金流,减少信息孤岛。这意味着各个部门可以顺畅沟通,减少重复劳动。同时,艾格文服装ERP…

作者头像 李华