新基准ALE测试：主流AI模型完成复杂专业任务平均通过率仅2.6%-编程阁

【导语：当前AI模型在主流benchmark上表现出色，但在真实工作中却难以发挥作用。由加州大学伯克利分校牵头的研究团队提出新基准Agents’ Last Exam（ALE），测试发现主流模型在ALE最难层级平均完整通过率仅2.6%，揭示了AI在完成复杂专业任务上的差距。】

新基准ALE：衡量AI真实工作能力

现有常用基准已无法衡量AI在真实、长流程、具经济价值工作中的表现，研究团队提出新基准Agents’ Last Exam（ALE）。它由250余位行业专家共同开发，收集了1490个覆盖制造、法律、医疗、视觉媒体等多领域的任务，用来测试AI在长期、有经济价值的真实工作流程中的表现。

ALE考试：主流模型表现不佳

在ALE最难层级中，主流模型平均完整通过率仅为2.6%。当前表现最好的配置Codex + GPT - 5.5，完整通过率也只有8.6%。研究团队列举了音乐转谱、注塑仿真、绿幕合成等失败案例，指出当前系统的主要瓶颈在于领域知识，而非执行能力。

研究还比较了模型和agent框架的影响，发现更换模型带来的结果差异明显大于更换agent框架，模型选择带来的影响范围大约是agent框架的三倍。

ALE不足与未来方向

ALE以SOC 2018为职业分类骨架，主要覆盖软件型、数字化专业工作，现阶段任务主要运行在Linux或Windows虚拟机中，且在不同领域覆盖不均衡。公开集目前只占完整任务池一部分，公开子集和完整任务池在各领域通过率相关系数为0.89。

不过，研究团队认为ALE是持续更新的基准，未来任务池会扩展到新工作流和新行业，私有池任务也会定期轮换进入公开集。

编辑观点：新基准ALE为评估AI真实工作能力提供了新视角，主流模型在ALE测试中的不佳表现凸显了其在复杂专业任务上的短板，未来ALE的持续更新有望推动AI在更多领域的应用和发展。

天若OCR本地版：Windows电脑离线文字识别终极指南

天若OCR本地版：Windows电脑离线文字识别终极指南【免费下载链接】wangfreexx-tianruoocr-cl-paddle 天若ocr开源版本的本地版，采用Chinese-lite和paddleocr识别框架项目地址: https://gitcode.com/gh_mirrors/wa/wangfreexx-tianruoocr-cl-paddle …

李华

英雄联盟回放管理神器ReplayBook：从青铜到王者的复盘分析革命

英雄联盟回放管理神器ReplayBook：从青铜到王者的复盘分析革命【免费下载链接】ReplayBook Play, manage, and inspect League of Legends replays 项目地址: https://gitcode.com/gh_mirrors/re/ReplayBook 还在为找不到关键团战而反复拖动进度条吗&#xf…