从工作流到自主决策：Anthropic 揭秘高效智能体的工程方法论-编程阁

一句话总结：这篇文章深入探讨了如何构建高效智能体，分享了Anthropic工程团队在智能体架构、工作流程和工具设计方面的宝贵经验，并为开发者提供了实际的应用指导。
原文链接：https://www.anthropic.com/engineering/building-effective-agents

智能体（Agent）作为人工智能领域的关键概念，近年来在各行各业得到了广泛应用。如何构建高效的智能体，一直是技术研发人员关注的焦点。

本期我们重温Anthropic 工程团队发布的经典研究文章，分享了他们在与用户合作以及自我构建智能体的过程中积累的宝贵经验。文章中不仅详细介绍了智能体系统的架构、工作流程以及框架使用，还提出了一些创新的理念和实践方法，给广大开发者提供了宝贵的参考。

智能体基础

在进入到构建智能体环节前，不妨问问自己几个问题：什么是智能体，我什么时候使用智能体？有哪些智能框架方便我上手运用。

什么是智能体？

“智能体”的定义有多种。一些用户将其定义为能够在较长时间内独立运行、借助各类工具完成复杂任务的完全自主系统；另一些用户则用该术语描述遵循预定义工作流程的、更具指令性的实施方案。

在 Anthropic，将所有这些变体都归类为智能体系统，但在架构上对工作流程和智能体做出了重要区分：

工作流程：通过预定义的代码路径协调 LLM 和工具的系统。
智能体：由 LLM 动态指导自身流程和工具使用，自主掌控任务完成方式的系统。

何时使用智能体？

在利用 LLM 构建应用时，Anthropic建议采用尽可能简单的解决方案，仅在必要时增加复杂度。

这可能意味着完全不构建智能体系统。智能体系统通常需要以延迟和成本为代价来换取更优的任务性能，你需要权衡这种取舍是否合理。

当确实需要更高复杂度时：对于定义明确的任务，工作流程能提供可预测性和一致性；而当大规模场景下需要灵活性和模型驱动的决策能力时，智能体则是更优选择。不过，对于许多应用而言，通过检索和上下文示例优化单次 LLM 调用通常就已足够。

何时以及如何使用框架？

有许多框架可以简化智能体系统的实现，包括：

LangChain 的 LangGraph；
亚马逊 Bedrock 的 AI Agent 框架；
Rivet：一款拖放式 GUI 版 LLM 工作流构建工具；
Vellum：另一款用于构建和测试复杂工作流的 GUI 工具。

这些框架通过简化调用 LLM、定义和解析工具、链接调用等标准底层任务，降低了入门门槛。然而，它们往往会增加额外的抽象层，掩盖底层的提示词和响应，导致调试难度加大；同时也可能诱使开发者在简单方案即可满足需求的情况下过度增加复杂度。

Anthropic 建议开发者首先直接使用 LLM API：许多模式仅需几行代码即可实现。如果确实要使用框架，请务必理解其底层代码。对底层实现的错误假设是用户常见的出错原因之一。

构建块、工作流与智能体

在本节将探讨在生产环境中观察到的智能体系统常见模式。我们将从基础构建块（block）——增强型 LLM 入手，逐步提升复杂度，涵盖从简单的组合式工作流（Workflow）到自主智能体的各类形式。

构建块：增强型 LLM

智能体系统的基本构建块是经过检索、工具、记忆等增强功能优化的 LLM——模型能够主动运用这些能力——生成自己的搜索查询、选择合适的工具、确定需要保留的信息。

图片

Anthropic 建议重点关注实现的两个关键方面：一是根据具体用例定制这些能力，二是为 LLM 提供简单、文档完善的接口。

实现这些增强功能的方式有很多，其中一种是通过MCP（Model Context Protocol），开发者只需简单的用户端实现，即可与日益增长的第三方工具生态系统集成。

工作流

工作流程的选择直接影响到系统的效率和灵活性。比如，提示词链工作流是一种将任务拆解为一系列简单步骤的方式，每一个步骤的输出都成为下一个步骤的输入。这个过程就像是逐步推进的一条链条，适用于那些能够明确分解成独立子任务的场景。例如，在生成营销文案时，可能需要先从大纲开始，逐步展开，最后得到完整的文案。在这种流程中，每一步都紧密相连，前一个任务的输出为下一个任务提供了明确的方向。

提示链工作流

而对于那些任务类型复杂且多样化的场景，路由工作流程就显得尤为重要。路由工作流通过对输入进行分类，将任务智能地分配到不同的处理流程中。这样一来，对于每个类型的任务，都能由最适合的工具或子系统来处理，提高了整体系统的处理效率。

例如，当用户发起一个请求时，如果是技术支持问题，就会被路由到专门处理此类问题的子系统，而普通的查询请求则被分配到其他子系统。

路由工作流

如果任务可以被拆分成多个并行进行的子任务，并行化工作流则是一个理想的选择。通过并行处理多个子任务，可以显著提高整体任务完成的效率。

比如，在进行大规模数据分析时，将不同的数据集分别交由不同的处理单元来计算，就能有效缩短整体分析的时间。这种方法特别适合那些可以独立进行处理的任务。

并行化工作流

对于一些结构较为复杂、步骤难以预定义的任务，协调器-执行器工作流是一种非常灵活且高效的方式。在这种工作流程中，一个核心的智能体（协调器）负责动态地分析任务需求，并将任务分配给多个执行器智能体。这些执行器根据协调者的指令，按需完成任务的各个子部分。

比如，在软件开发中的代码修改任务中，协调器可以根据不同的代码文件及修改要求，决定哪些部分需要由哪个执行者来处理。这种方式非常适合那些不易预见子任务或步骤的复杂任务。

协调器-执行器工作流

最后，对于那些有明确评估标准并且需要不断优化的任务，评估器-优化器工作流能够为系统提供持续的质量提升。在这个工作流程中，智能体不仅完成任务，还会对任务的执行结果进行评估，基于评估的反馈不断优化后续的操作。

例如，在文学翻译的过程中，初步翻译可能无法准确传达原文的细微差别，评估器可以根据翻译质量给出反馈，优化器根据反馈调整翻译内容，最终达到更理想的效果。

评估器-优化器工作流

智能体

随着 LLM 在理解复杂输入、推理规划、可靠使用工具和错误恢复等关键能力上的成熟，智能体已开始投入生产应用。

智能体的工作始于人类用户的指令或交互式讨论。一旦任务明确，智能体便会自主规划和执行操作，必要时向人类寻求更多信息或判断。

在执行过程中，智能体必须在每个步骤从环境中获取“真实数据”（如工具调用结果或代码执行情况），以评估进展。智能体可以在检查点或遇到障碍时暂停，等待人类反馈。任务通常在完成后终止，但通常也会设置停止条件（如最大迭代次数）以保持控制。

智能体示意图

智能体能够处理复杂任务，但其实现往往并不复杂。它们通常只是 LLM 在循环中根据环境反馈使用工具。因此，清晰、周到地设计工具集及其文档至关重要。

如何设计智能体工具？

在设计智能体工具时，Anthropic 建议考虑以下几点：

首先，给模型足够的“思考”时间，确保它在执行任务之前有足够的空间来处理信息，避免它在“死胡同”中挣扎。

其次，确保工具的格式尽可能接近模型在互联网上自然接触到的格式，这样能减少理解和操作的难度。此外，避免引入过多的格式化“负担”，例如不需要精确计数成千上万行代码，或在写入代码时进行字符串转义等繁琐操作。

一个重要的指导原则是：在人机接口（HCI）的设计中投入多少精力，智能体与计算机接口（ACI）的设计也应投入相同的精力。

以下是一些建议清单：

从模型的角度思考：设想自己是模型，是否能够根据工具的描述和参数轻松理解如何使用？如果需要深思熟虑，那么模型也可能面临同样的困境。一个良好的工具定义应该包括示例用法、边界条件、输入格式要求，并清晰区分其他工具的使用。
优化参数命名和描述：如何调整参数名称或描述，使其更易于理解？可以把这看作是为团队中的初级开发者编写清晰的文档字符串（docstring）。特别是当使用多个类似工具时，这种改进尤为重要。
测试模型如何使用工具：在我们的工作台上运行多个示例输入，观察模型可能犯的错误，并进行迭代优化。
进行防呆设计（Poka-yoke）：通过改变参数设置，使模型更难犯错误。防呆设计可以通过限制错误操作的发生，确保工具使用的准确性和可靠性。
保持智能体设计的简洁性。
通过清晰展示智能体的规划步骤，优先保证透明度。
通过详细的工具文档和测试，精心设计智能体-计算机接口（ACI）。