LiveMCPBench：在大型工具环境中评估 LLM 代理的新基准-编程阁

总结

本文提出了一种新的基准–LiveMCPBench，用于评估大型工具使用环境中代理的能力。

传统基准假定只有少量的应用程序接口和模拟工具环境，不能充分反映现实中多样和动态的工具环境。

因此，作者利用标准化接口–模型上下文协议（MCP），构建了 LiveMCPTool，其中包括 70 个 MCP 服务器和 527 个真实工具。

此外，他们还引入了可实现评估自动化的 LiveMCPEval，通过使用 LLM 作为评估者，他们实现了与人类评估者 81% 的一致率。

我们还提出了可实现工具探索和顺序使用的 MCP Copilot Agent，并对十种最先进的模型进行了比较。
结果证实，Claude-Sonnet-4 的成功率约为 79%，而大多数模型的成功率仅为 30%-50%，这表明在大规模工具环境中的能力存在显著差异。

这项研究为评估提供了一个现实的、可重复的基础，并为未来的代理研究奠定了基础。

建议采用的方法

作者设计了一个由四个主要元素组成的框架，以评估代理是否能有效利用大型 MCP 工具套件。

首先，设计了各种日常任务，并收集了六个领域的 95 项实际任务，包括办公室工作、生活信息、金融、旅行和购物。
这提供了现实世界中需要时间变化和综合使用多种工具的任务。

其次，我们建立了LiveMCPTool，其中包含70个服务器和527个工具，不依赖外部API密钥，并随时提供给研究人员使用。

第三，我们提出了 LiveMCPEval，这是一种由 LLM 判断代理工具使用过程的方法。
这样就能在包含解决方案多样性和时间依赖性的环境中进行稳健的评估。

最后，我们开发了 MCP Copilot Agent，它基于 ReACT 策略，集成了工具探索和顺序执行功能。
该框架克服了传统方法中应用程序接口（API）不稳定性和小规模性的问题，并提供了一个现实的、可重复的评估环境。

实验

在 Claude-Opus-4、Claude-Sonnet-4、GPT-4.1、Gemini-2.5-Pro 和 DeepSeek-V3 等 10 个主要模型上进行了实验，使用 95 个任务来比较性能。

在使用DeepSeek-V3进行评估时，采用了LLM-as-a-Judge方法，并与人工评估结果进行了核对。
结果显示，Claude-Sonnet-4 的成功率最高，达到 78.95%，其次是 Claude-Opus-4，为 70.53%。

另一方面，GPT-4.1 和 Gemini-2.5-Pro 的成功率仅为 40%左右，这证实了许多模型都无法找到和组合工具。
其中，工具使用不当、未指定参数和 “检索错误”（未找到合适的工具）是主要的失败因素。

此外，对每个模型利用行为的分析表明，克劳德系统积极探索和利用多种工具，而其他模型则倾向于依赖单一工具。
此外，性价比权衡分析确定 Claude-Sonnet-4 和 Qwen2.5-72B 为具有成本效益的模型。

这些结果得出结论，目前的许多模型在大型工具环境中仍有局限性，未来需要改进任务分解和动态规划能力。

智能体项目的“立项评审”清单：在资源投入前，必须回答的 7 个残酷问题

这不是一篇教你“如何做 Agent”的文章。这是在你决定要不要做之前，必须先通过的一次工程拷问。如果一个智能体项目在立项阶段就回答不了下面的问题，那么它后续出现的：Agent 行为不稳定Prompt 越写越长错误无法复现系统无法演进都不是“模型…

李华

CTFd竞赛平台动态计分算法与公平性配置终极指南

CTFd竞赛平台动态计分算法与公平性配置终极指南【免费下载链接】CTFd CTFd/CTFd: CTFd 是一个用于构建 CTF（Capture The Flag）平台的开源框架，可以用于构建在线编程比赛平台，支持多种 CTF 题目和竞赛，可以用于学习和练…

李华

《Python 适配器模式全景解析：从设计思想到工程实战》

《Python 适配器模式全景解析：从设计思想到工程实战》一、开篇引入：为什么要学习适配器模式？在软件开发中，我们常常遇到这样的场景：新旧系统接口不兼容，无法直接调用。第三方库的 API 与我们的业务逻辑不匹配。不同模块之间的数据结构存在差异，需要转换。如果我…

李华

告别数据“迷雾”，一键生成专业报告：百考通AI数据分析助手，你的商业决策智囊团！

在数据驱动的时代，海量信息既是宝藏，也是负担。对于企业高管、市场分析师、科研人员乃至学生而言，如何从纷繁复杂的数据中提炼价值、洞察趋势、支撑决策，已成为一项核心竞争力。然而，面对堆积如山的Excel表格和CSV文件…

李华

DAIN算法边缘部署实战：从研究到落地的完整指南

DAIN算法边缘部署实战：从研究到落地的完整指南【免费下载链接】DAIN Depth-Aware Video Frame Interpolation (CVPR 2019) 项目地址: https://gitcode.com/gh_mirrors/da/DAIN 你是否遇到过这样的困境：在实验室里表现优异的AI模型，一…

李华

总结