LLM智能体“胡闹厨房”翻⻋？ParaCook基准揭⽰：SOTA模型在“时间效率”上被⼈类完胜-编程阁

当今的⼤语⾔模型（LLM）智能体在执⾏复杂任务时展现了强⼤的推理和规划能⼒。

但现有评测⼤多只关注“任务是否完成”，却忽视了⼀个核⼼问题：“完成任务花了多⻓时间？”。在多智能体协作时，这种对“时间效率”的忽视尤为致命。

为此，作者提出了 ParaCook，一个受《胡闹厨房》(Overcooked) 启发、专注于时间效率的多智能体协作规划基准。研究发现，即便是GPT-5这样的顶级模型，在面对复杂的并行协作时，其成功率和效率也远不及人类，暴露了当前AI在时间效率规划上的巨大短板。

现有的智能体基准在评测并行效率方面存在明显短板。

缺乏效率指标：大多基准只关心任务是否正确完成，不评估时间成本，导致无法区分一个“聪明的快计划”和一个“笨拙的慢计划”。
场景过于简化：现有基准要么假设资源无限（如AsyncHow），要么只关注单智能体（如Robotouille），无法真正评测多智能体在资源受限下的协作与调度能力。
挑战无法剥离：一些综合性基准（如CookBench）虽然任务长，但无法将“时间效率”这一核心挑战单独分离出来进行评估。

作者提出的 ParaCook 提供了一个模拟厨房的2D网格环境，通过简化动作空间，让LLM专注于核心的战略并行规划挑战。

ParaCook的核心是系统性地评估两种并行能力：

个体并行 (Intra-Agent Parallelism)：单个智能体能否在执行“煮汤”（一个自动进行、只需等待的任务）时，智能地切换去做“切菜”，以减少空闲时间？
团队并行 (Inter-Agent Parallelism)：多个智能体能否高效分工，例如一个去处理汉堡、一个去准备沙拉，而不是互相等待或抢占同一个工作台？

该基准还支持通过调整菜谱复杂度、订单数量和地图布局来精确控制难度，实现可扩展的评测。

作者在ParaCook上对GPT-5、Gemini-2.5-Pro、DeepSeek-V3.2等一系列SOTA LLM进行了全面评测，发现了清晰的性能鸿沟。

LLM性能梯队分化：GPT-5遥遥领先

评测数据显示，不同LLM在规划能力上分为三个梯队：

第一梯队 (T1): GPT-5 表现最佳，取得了 65.0% 的平均成功率，在效率（pOCT）上也显著优于其他模型。
第二梯队 (T2): Gemini-2.5-Pro (47.4%) 和 DeepSeek-V3.2-Exp (45.3%) 形成了第二梯队，表现中等，但在困难任务上成功率下降明显。
第三梯队 (T3): Claude-Opus-4.1 (13.1%) 和 Qwen3 (2.2%) 表现不佳，在困难任务上几乎完全失败。

CoT并非万灵药：仅对强模型有效

思维链 (CoT) 的影响因模型而异。对于GPT-5这样的强模型，CoT能稳定提升其在困难任务上的表现（成功率从45%提升至57%）。但对于Gemini和DeepSeek等中等模型，CoT的影响不稳定，甚至会导致性能下降。对于Claude和Qwen等模型，CoT也仅在简单任务上提供了有限的帮助。

效率与成功率惨败：LLM被人类完胜

尽管LLM之间存在差距，但它们与人类的差距是压倒性的。

成功率上：人类玩家能轻松达到 100% 的任务成功率。而表现最好的GPT-5在困难任务上也仅有50%的成功率（使用CoT）。
效率上：在困难任务上，人类的“订单完成时间”(nOCT)为15.31，而GPT-5则需要17.61，更慢。差距在“空间效率”上最为明显。人类的平均移动距离(pMD)仅为 51.08，而GPT-5则高达 143.55。这表明LLM的规划充满了冗余移动，在厨房里“到处乱跑”。

为了探究LLM是真的“不会规划”，还是“不会落地”，作者设计了抽象规划任务(Abstract Task)——剥离所有环境交互（如移动、拾取），只让模型进行纯粹的调度。

结果发生了惊人的反转：

在抽象任务上，GPT-5、Gemini-2.5-Pro等顶级模型均取得了近乎完美的100%成功率，其规划出的时间表与“理论最优解”相比，平均只慢了1-7%。

这一对比有力地证明：LLM的瓶颈不在于高层的并行规划能力，而在于无法将这种高层理解应用到复杂的、带有时空约束的具身（Embodied）环境中。

ParaCook 首次提供了一个系统性的基准，用于评估多智能体规划中的时间效率。作者的研究揭示了，尽管LLM在纯推理上很强，但要实现真正高效的“手脚协同”，仍有很长的路要走。这项工作为未来开发“时间效率感知”(time efficiency-aware)的智能体奠定了基础。

ParaCook 不仅是一个固定的数据集，更是一个灵活的可扩展框架。未来，作者可以向基准中添加新的菜谱、烹饪工具、随机事件（如着火），甚至设计特定布局（如用桌子隔开厨房）来测试更复杂的协调策略。

同时，该基准也为社区指明了新的研究方向。例如，探索分层规划框架（将高层调度与底层动作执行相分离），或研究全新的算法来克服论文中发现的并行规划挑战，将是极具价值的探索。

更详细的实验以及研究结论，欢迎参考开源代码和原论文：

LLM智能体“胡闹厨房”翻⻋？ParaCook基准揭⽰：SOTA模型在“时间效率”上被⼈类完胜