1.1 Multi-Agent 评估的核心挑战
评估 LLM Agent 比评估单体 LLM 应用复杂得多。与主要评估文本生成质量的 LLM 不同,LLM Agent 在动态交互环境中运行——它们推理、制定计划、执行工具、利用记忆,甚至与人类或其他 Agent 协作[^1]。这种复杂行为和现实世界的影响使得标准 LLM 评估方法完全不够用。
Multi-Agent 系统的评估面临独特挑战:
轨迹评估:传统评估只关注最终输出,但 Multi-Agent 的价值在于执行轨迹——规划是否合理、工具调用是否正确、中间决策是否正确。这需要细粒度的轨迹级评估。
多维度能力:Agent 需要同时评估多个维度——规划能力、工具使用准确性、上下文保持、错误恢复、协作效率。单一指标无法全面反映 Agent 能力。
动态交互:Agent 与环境交互产生动态行为,静态基准测试无法充分覆盖这些场景。需要交互式评估方法。
长时序依赖:复杂任务可能需要数十甚至数百步才能完成,评估长轨迹中的累积错误和错误传播极为困难。
1.2 评估维度分类
根据 KDD 2025 的研究,Agent 评估可以从两个维度组织[^1]:
评估目标(What to Evaluate):
- 行为评估:Agent 实际做了什么,轨迹是否合理