news 2026/6/10 19:08:16

LLM智能体“胡闹厨房”翻⻋?ParaCook基准揭⽰:SOTA模型在“时间效率”上被⼈类完胜

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LLM智能体“胡闹厨房”翻⻋?ParaCook基准揭⽰:SOTA模型在“时间效率”上被⼈类完胜

当今的⼤语⾔模型(LLM)智能体在执⾏复杂任务时展现了强⼤的推理和规划能⼒。

但现有评测⼤多只关注“任务是否完成”,却忽视了⼀个核⼼问题:“完成任务花了多⻓时间?”。在多智能体协作时,这种对“时间效率”的忽视尤为致命。

为此,作者提出了 ParaCook,一个受《胡闹厨房》(Overcooked) 启发、专注于时间效率的多智能体协作规划基准。研究发现,即便是GPT-5这样的顶级模型,在面对复杂的并行协作时,其成功率和效率也远不及人类,暴露了当前AI在时间效率规划上的巨大短板。

  • 论文: ParaCook: On Time-Efficient Planning for Multi-Agent Systems

  • 链接: https://arxiv.org/abs/2510.11608

  • 代码/数据: https://github.com/zsq259/ParaCook

0为什么需要ParaCook?

现有的智能体基准在评测并行效率方面存在明显短板。

  • 缺乏效率指标: 大多基准只关心任务是否正确完成,不评估时间成本,导致无法区分一个“聪明的快计划”和一个“笨拙的慢计划”。

  • 场景过于简化: 现有基准要么假设资源无限(如AsyncHow),要么只关注单智能体(如Robotouille),无法真正评测多智能体在资源受限下的协作与调度能力。

  • 挑战无法剥离: 一些综合性基准(如CookBench)虽然任务长,但无法将“时间效率”这一核心挑战单独分离出来进行评估。

1ParaCook:专为“并行效率”打造的试炼场

作者提出的 ParaCook 提供了一个模拟厨房的2D网格环境,通过简化动作空间,让LLM专注于核心的战略并行规划挑战。

ParaCook的核心是系统性地评估两种并行能力:

  1. 个体并行 (Intra-Agent Parallelism): 单个智能体能否在执行“煮汤”(一个自动进行、只需等待的任务)时,智能地切换去做“切菜”,以减少空闲时间?

  2. 团队并行 (Inter-Agent Parallelism): 多个智能体能否高效分工,例如一个去处理汉堡、一个去准备沙拉,而不是互相等待或抢占同一个工作台?

该基准还支持通过调整菜谱复杂度、订单数量和地图布局来精确控制难度,实现可扩展的评测。

2核心结果:LLM梯队分化,且被人类完胜

作者在ParaCook上对GPT-5、Gemini-2.5-Pro、DeepSeek-V3.2等一系列SOTA LLM进行了全面评测,发现了清晰的性能鸿沟。

LLM性能梯队分化:GPT-5遥遥领先

评测数据显示,不同LLM在规划能力上分为三个梯队:

  • 第一梯队 (T1): GPT-5 表现最佳,取得了 65.0% 的平均成功率,在效率(pOCT)上也显著优于其他模型。

  • 第二梯队 (T2): Gemini-2.5-Pro (47.4%) 和 DeepSeek-V3.2-Exp (45.3%) 形成了第二梯队,表现中等,但在困难任务上成功率下降明显。

  • 第三梯队 (T3): Claude-Opus-4.1 (13.1%) 和 Qwen3 (2.2%) 表现不佳,在困难任务上几乎完全失败。

CoT并非万灵药:仅对强模型有效

思维链 (CoT) 的影响因模型而异。对于GPT-5这样的强模型,CoT能稳定提升其在困难任务上的表现(成功率从45%提升至57%)。但对于Gemini和DeepSeek等中等模型,CoT的影响不稳定,甚至会导致性能下降。对于Claude和Qwen等模型,CoT也仅在简单任务上提供了有限的帮助。

效率与成功率惨败:LLM被人类完胜

尽管LLM之间存在差距,但它们与人类的差距是压倒性的。

  • 成功率上:人类玩家能轻松达到 100% 的任务成功率。而表现最好的GPT-5在困难任务上也仅有50%的成功率(使用CoT)。

  • 效率上:在困难任务上,人类的“订单完成时间”(nOCT)为15.31,而GPT-5则需要17.61,更慢。差距在“空间效率”上最为明显。人类的平均移动距离(pMD)仅为 51.08,而GPT-5则高达 143.55。这表明LLM的规划充满了冗余移动,在厨房里“到处乱跑”。

3LLM并非不懂规划:抽象任务 vs. 具身任务

为了探究LLM是真的“不会规划”,还是“不会落地”,作者设计了抽象规划任务(Abstract Task)——剥离所有环境交互(如移动、拾取),只让模型进行纯粹的调度。

结果发生了惊人的反转:

在抽象任务上,GPT-5、Gemini-2.5-Pro等顶级模型均取得了近乎完美的100%成功率,其规划出的时间表与“理论最优解”相比,平均只慢了1-7%。

这一对比有力地证明:LLM的瓶颈不在于高层的并行规划能力,而在于无法将这种高层理解应用到复杂的、带有时空约束的具身(Embodied)环境中。

4结语

ParaCook 首次提供了一个系统性的基准,用于评估多智能体规划中的时间效率。作者的研究揭示了,尽管LLM在纯推理上很强,但要实现真正高效的“手脚协同”,仍有很长的路要走。这项工作为未来开发“时间效率感知”(time efficiency-aware)的智能体奠定了基础。

5未来工作

ParaCook 不仅是一个固定的数据集,更是一个灵活的可扩展框架。未来,作者可以向基准中添加新的菜谱、烹饪工具、随机事件(如着火),甚至设计特定布局(如用桌子隔开厨房)来测试更复杂的协调策略。

同时,该基准也为社区指明了新的研究方向。例如,探索分层规划框架(将高层调度与底层动作执行相分离),或研究全新的算法来克服论文中发现的并行规划挑战,将是极具价值的探索。

更详细的实验以及研究结论,欢迎参考开源代码和原论文:

  • 论文原文: https://arxiv.org/abs/2510.11608

  • 开源代码/数据: https://github.com/zsq259/ParaCook

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 11:15:41

11、Azure机器学习中的R集成与常用算法介绍

Azure机器学习中的R集成与常用算法介绍 1. R与Azure机器学习的集成 在Azure机器学习中集成R语言可以带来很多令人兴奋的可能性。以下是使用R进行实验的一些关键操作: - 决策树可视化 :若要可视化决策树,可点击“Execute R Script”模块的第二个输出端口,即“R Device”…

作者头像 李华
网站建设 2026/6/10 11:15:36

在vivado2018.3中从零实现按键消抖项目

从零开始在 Vivado 2018.3 中实现按键消抖:一个真正能用的 FPGA 入门项目你有没有遇到过这种情况——明明只按了一下开发板上的按键,结果 LED 却闪了三下?或者串口打印出“按键按下”好几次?别怀疑人生,这锅不是你的代…

作者头像 李华
网站建设 2026/6/10 11:13:28

3、版本控制中的标签、分支、合并与锁定机制详解

版本控制中的标签、分支、合并与锁定机制详解 1. 版本号系统 在软件开发过程中,版本控制至关重要。版本号系统是版本控制的核心之一。每个文件都有对应的修订版本号,例如 Graph.java 、 Trains.java 、 Node.java 等文件,都存在 revision 1 、 revision 2 、 r…

作者头像 李华
网站建设 2026/6/10 11:14:50

基于Python+Django+SpringBoot健康宝系统(源码+LW+调试文档+讲解等)/健康宝小程序/健康宝微信版/健康宝系统/微信小程序系统/健康宝功能/健康宝使用/健康宝查询

博主介绍 💗博主介绍:✌全栈领域优质创作者,专注于Java、小程序、Python技术领域和计算机毕业项目实战✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 2025-2026年最新1000个热门Java毕业设计选题…

作者头像 李华
网站建设 2026/6/9 21:01:16

GPT-SoVITS语音合成在博物馆导览系统中的实践

GPT-SoVITS语音合成在博物馆导览系统中的实践 在一座现代化的博物馆里,一位外国游客驻足于一件青铜器前。他轻触平板上的展品标签,耳边随即传来一段温润沉稳的英文讲解——声音既不像机械朗读,也不似标准播音腔,而更像是一位熟悉文…

作者头像 李华
网站建设 2026/6/10 14:43:46

GPT-SoVITS语音克隆可用于遗体告别语音复现?

GPT-SoVITS语音克隆可用于遗体告别语音复现? 在一场追思仪式上,一段熟悉的声音缓缓响起:“孩子,别难过,爸爸一直都在。”声音的语气、停顿、甚至那一点微不可察的沙哑,都与逝者生前如出一辙。这不是录音回放…

作者头像 李华