Tool-to-Agent_Retrieval：连接工具与智能体的统一检索框架，让大模型多智能体系统更高效-编程阁

Tool-to-Agent Retrieval：连接工具与智能体的统一检索框架，让大模型多智能体系统更高效

大语言模型多智能体系统正迎来一场革命性突破！最新研究提出的Tool-to-Agent Retrieval框架，通过将工具和智能体嵌入共享向量空间，实现了前所未有的检索效率提升。在LiveMCPBench基准测试中，该方法在Recall@5指标上提升19.4%，在nDCG@5指标上提升17.7%，为构建可扩展的LLM多智能体系统开辟了新路径。

论文标题： Tool-to-Agent Retrieval: Bridging Tools and Agents for Scalable LLM Multi-Agent Systems
来源： arXiv:2511.01854v2 + https://arxiv.org/abs/2511.01854

PS: 整理了LLM、量化投资、机器学习方向的学习资料，关注同名公众号「 AI极客熊」即刻免费解锁

文章核心

研究背景：

随着大语言模型智能体和Model Context Protocol (MCP)的快速发展，助手能够在推理时发现、装备和使用大量外部工具和MCP服务器。在实际应用中，单个助手可能会委托给专门的子智能体进行代码分析、数据库操作或网络搜索，每个智能体在单一接口背后捆绑了数十个工具。核心挑战在于路由：给定用户查询，系统应该选择特定工具还是利用整个智能体（如MCP服务器）提供的一组协调的工具？将所有工具描述转发给模型是不现实的，例如一个包含26个工具的MCP服务器可能消耗超过4,600个token，使得高效检索对于可扩展性变得至关重要。

研究问题：

Agent-first路由局限性：现有的智能体优先管道将查询与简短的智能体描述匹配，然后仅在该智能体内操作，这会隐藏那些父描述与查询明显不对齐的高度相关工具。
Tool-only检索缺陷：仅工具检索独立处理每个工具，忽略了多步任务中周围工具包的互补优势。
上下文稀释问题：当许多工具被折叠成单一粗粒度描述时，会导致上下文稀释，影响检索精度。

主要贡献：

统一检索框架：引入了一种新颖的工具检索策略，将工具及其父智能体嵌入共享向量空间，通过工具到智能体元数据遍历进行链接，实现统一检索并达到最先进的性能。
细粒度路由机制：提出了一种检索程序，既保留细粒度工具级细节，又维持智能体级上下文，缓解了粗粒度摘要带来的上下文稀释问题，提高了多步查询的鲁棒性。
全面评估：在LiveMCPBench上使用八个嵌入模型评估方法，证明了相比先前最先进方法在Recall@5上提升17.7%，在nDCG@5上提升19.4%的性能改进。

方法论精要

Tool-to-Agent Retrieval的核心创新在于将工具和其父智能体同时嵌入统一的向量空间中，并通过元数据关系显式链接每个工具到其父智能体。该方法考虑了一个包含MCP服务器及其对应智能体的目录，表示为a ∈ A a \in Aa∈A。每个智能体a aa拥有一组工具T a T^aTa，由该智能体暴露的API调用、函数或操作组成。整个系统被建模为一个二分图G = ( A , T , E ) G=(A,T,E)G=(A,T,E)，其中边E EE表示工具和智能体之间的所有权关系。

索引构建：研究构建了一个统一的工具-智能体目录C \mathcal{C}C，集成了工具和智能体用于检索。该目录由两个语料库组成：工具语料库C T \mathcal{C}^TCT和智能体语料库C A \mathcal{C}^ACA。工具语料库包含直接索引检索的工具名称和描述，每个工具条目包括显式链接到其父MCP服务器或智能体的元数据，表示为o w n e r ( T ) = A owner(T)=Aowner(T)=A。这种映射使得在查询解析期间能够从检索的工具遍历到相应的可执行智能体。智能体语料库类似地包含智能体名称和描述，表示更高级别的能力并作为检索图中的父节点。

检索过程：检索过程修改了标准的top-K排序程序。目标是识别给定查询或子查询的前K个最相关智能体。为实现这一目标，首先从统一的工具-智能体目录C \mathcal{C}C中检索前N ≫ K N \gg KN≫K个实体，按与查询的语义相似度排序。这种方法结合了语义和词汇匹配策略以提高召回率，利用BM25与密集向量检索并行使用。然后聚合相应的父智能体，并选择前K个唯一智能体。

查询策略：Tool-to-Agent Retriever的输入可以是原始用户查询、从中分解的子步骤，或两者的组合。研究评估了两种查询范式：第一种是直接查询，直接使用用户的高级问题作为检索查询，无需任何预处理；第二种是逐步查询，将原始查询分解为一系列较小的子任务，然后每个步骤独立提交给检索器，允许系统在多步工作流中根据需要识别不同的智能体。

该方法的算法实现如Algorithm 1所示，输入包括查询q qq、语料库C \mathcal{C}C（智能体∪工具）、类型函数τ ( ⋅ ) ∈ { agent , tool } \tau(\cdot) \in \{\text{agent}, \text{tool}\}τ(⋅)∈{agent,tool}、所有者映射o w n ( ⋅ ) own(\cdot)own(⋅)、相似度函数s ( q , ⋅ ) s(q,\cdot)s(q,⋅)和截断值N , K N,KN,K。算法首先检索前N NN个实体，然后通过遍历工具到智能体的关系，最终返回前K KK个唯一智能体。

实验洞察

研究在LiveMCPBench数据集上评估了所提出的Tool-to-Agent Retriever的有效性，该数据集包含70个MCP服务器和527个工具，以及95个真实世界问题，标注了逐步分解和相关工具-智能体映射。这种结构支持细粒度、步骤级的检索性能评估。平均每个问题跨越2.68个步骤，涉及2.82个工具和1.40个MCP智能体。

实验设置：研究评估了多个嵌入模型的检索性能，使用了8个嵌入模型，包括闭源和开源模型。使用每个模型对数据集进行嵌入，并执行语义相似度搜索以检索相关实体。首先从工具-智能体目录中检索前N ≫ K N \gg KN≫K个实体，然后使用Algorithm 1选择前K KK个唯一智能体。通过将检索的智能体与评估集中每个查询相关联的真实智能体进行比较来计算检索准确性。

性能结果：如表1和表2所示，Tool-to-Agent Retrieval在Recall、mAP和nDCG指标上始终优于先前方法。该方法在所有基线上实现了卓越性能，在多个嵌入系列中观察到增益，包括Vertex AI、Gemini、Titan、OpenAI和MiniLM。这些改进主要源于更丰富的检索语料库，该语料库共同索引工具和智能体，实现了更细粒度的语义对齐。

重要的是，性能提升不能仅归因于工具级检索。联合索引支持细致的匹配，同时保留智能体上下文，证据显示39.13%的检索前K项来自智能体语料库C A \mathcal{C}^ACA，34.44%的匹配前K工具也追溯到C A \mathcal{C}^ACA。这些结果共同表明，显式链接工具到其父智能体缓解了上下文稀释，改善了多步路由，而不牺牲细粒度精度。

在所有八个嵌入模型上，Tool-to-Agent Retrieval表现出 remarkably 稳定的改进，相对于MCPZero，Recall@5的标准偏差为0.02，nDCG@5的标准偏差为0.01。这种一致性表明增益是架构无关的，主要由统一索引设计驱动，而非特定嵌入行为。最强的相对改进在Amazon Titan v2上观察到（Recall@5从0.66提高到0.85，相对增益+28%），即使是紧凑的All-MiniLM-L6-v2模型也实现了+13%的改进，确认了在专有和开源嵌入中的通用性。

消融分析：为了分离工具级信息的贡献，研究还构建了一个仅包含MCP服务器名称和描述的仅智能体基线数据集。实验结果表明，仅智能体检索在处理细粒度工具功能时存在显著限制，而Tool-to-Agent Retrieval通过联合索引成功平衡了细粒度工具匹配和智能体级上下文保留。

这项研究为统一工具和智能体选择开辟了有希望的方向，激励未来研究更复杂的代理网络的可扩展检索架构。通过显式建模工具能力并启用工具级和智能体级表示之间的遍历，该方法支持保留细粒度上下文的细粒度检索决策，避免了粗粒度智能体摘要引入的稀释。