本文介绍了LLM智能体外部化技术,核心观点是AI智能体进步不再依赖大模型,而是依靠更好的外部基础设施。外部化包含三大支柱:记忆系统解决连续性问题,技能系统固化流程化专家能力,协议系统规范交互规则。外部化让智能体从"一次性推理"变为"可持续执行主体",从"即兴创作"变为"按手册执行",从"单体工具"进化为"可协作生态单元",并提升了可靠性、可复用性、可治理性。未来将走向外化范围扩大、多模态支持、具身智能适用、管控自演进、基础设施共享和评估体系专业化。
一、什么是外部化?
想象一下,如果一个人要记住所有事情、想出所有流程、协调所有工作,那他一定会累趴下。LLM 智能体(Agent)也面临着同样的问题。
这篇重量级论文提出了一个核心观点:**现代 AI 智能体的进步,不再仅仅依靠"更大的模型",而是依靠"更好的外部基础设施"**——也就是把认知负担外包给外部系统。
Donald A. Norman 在《认知Artifacts》中说过:
“认知工具的力量来自于它的表征功能……认知Artifacts不改变人类的能力,它改变了任务本身。”
翻译成人话就是:一个好的工具,不是让你变得更聪明,而是让问题变得更简单。
例如:
- 📝购物清单:不是增强记忆力,而是把"回忆"变成"识别"
- 🗺️地图:不是让导航更强,而是把"隐藏的空间关系"变成"可见的结构"
LLM 智能体也在经历同样的转变——把内部难以处理的认知负担,转移到外部可控的系统中。
二、AI 智能体的演进历程
论文用一张图概括了 AI 智能体的演进历史:
image
从 2022 到 2026 年,AI 社区的重心经历了三次转移:
| 阶段 | 核心 | 特点 |
|---|---|---|
| 权重时代 | 模型参数即能力 | 能力靠训练,修改靠微调 |
| 上下文时代 | 提示工程即能力 | 靠精心设计的 prompt 引导行为 |
| 框架时代 | 基础设施即能力 | 靠外部 Memory、Skills、Protocols 组织智能 |
三、外部化的三大支柱
外部化架构可以用这张图来理解:
image
3.1 Memory(记忆)——外部化的时间状态
记忆系统解决的问题:连续性问题
记忆系统的本质是把智能体的时序状态从模型内部外化出来,解决 LLM 天生无状态、上下文有限、易遗忘、难跨会话的根本缺陷,是实现长时序、可恢复、可累积、可治理的智能体的基础模块。
想象一个场景:你让 AI 帮你写代码,中途打断了,再继续时它完全忘了之前做了什么。
image
3.1.1 核心定位:解决"连续性负担"
LLM 原生是stateless(无状态)的,每次调用都是全新上下文,无法自然保持:
- 跨会话历史
- 任务中间状态
- 失败与经验
- 用户偏好与环境信息
记忆系统把这些负担从模型内部移到外部持久存储,让智能体从"一次性推理"变成"可持续执行的主体"。
3.1.2 四大核心功能
- 工作上下文(Working Context)
- 保存当前任务的中间状态:打开文件、临时变量、执行断点、计划草稿
- 作用:支持任务中断后恢复,不用每次重启都从头重建状态
- 典型系统:OpenHands、SWE-Agent、InfiAgent
- 情景经验(Episodic Experience)
- 记录历史执行轨迹:决策点、工具调用、失败原因、反思总结
- 作用:避免重复犯错、提供先例参考、为技能提炼提供原料
- 典型系统:Reflexion、AriGraph
- 语义知识(Semantic Knowledge)
- 存储抽象知识、领域规则、项目规范、稳定常识
- 作用:提供稳定背景知识,不依赖模型权重里的过时/模糊知识
- 典型系统:RAG、Knowledge Base、GraphRAG
- 个性化记忆(Personalized Memory)
- 存储用户/团队专属信息:偏好、习惯、约束、历史交互
- 作用:实现跨会话个性化,区分通用知识与用户专属状态
- 典型系统:VARS、IFRAgent
3.1.3 在智能体架构中的关键工程价值
- 把"回忆"变成"检索",大幅提升可靠性
- 不用让模型从权重里"回想"历史 → 改为从外部存储"识别并取用"
- 从根本解决遗忘、幻觉、信息不一致
- 突破上下文窗口限制,实现无限长时序能力
- 不把所有历史塞进 prompt → 只检索当前需要的片段
- 支持超长任务、多轮对话、多天/多会话持续执行
- 为技能系统提供"原料"
- 记忆存的是经验轨迹
- 技能是从轨迹中提炼出的可复用流程
- 没有记忆 → 技能无法自动生成、更新、迭代
- 支撑管控层(Harness)的治理与可观测性
- 所有行为可记录、可追溯、可审计
- 支持权限、版本、回滚、审查
- 让智能体从"黑盒生成"变成"可管控系统"
- 实现跨任务、跨会话、跨智能体的知识共享
- 记忆可以持久化、导出、共享
- 让能力不局限在单次调用,而是可累积、可迁移
3.1.4 与其他模块的协同关系
- 记忆 ↔ 技能:记忆提供经验 → 提炼成技能;技能执行 → 产生新记忆
- 记忆 ↔ 协议:协议交互结果 → 写入记忆;记忆状态 → 决定走哪条协议路径
- 记忆 ↔ 管控层:管控层负责记忆的读写权限、检索策略、生命周期、遗忘策略
3.1.5 一句话总结
记忆系统是 LLM 智能体的"外部大脑与时间轴",负责外化时序状态、突破上下文限制、积累经验、支撑技能进化,并让智能体具备长时序、可恢复、可治理的工程能力。
3.2 Skills(技能)——外部化的程序知识
技能 = 把智能体的「流程化专家能力」从模型内部外化出来,解决 LLM 每次都要即兴生成步骤、不稳定、不一致、不可控的问题,是实现可靠、可复用、可治理、可组合的复杂任务执行的核心模块。
image
3.2.1 核心定位:解决「流程一致性负担」
LLM 虽然会推理,但天生不稳定:
- 每次生成的步骤不一样
- 容易漏步骤、乱顺序、提前终止
- 无法稳定遵守规范、合规、安全规则
- 复杂任务无法重复执行
技能系统把「怎么做」固化成外部可执行流程,让智能体从"即兴创作"变成"按手册执行"。
3.2.2 技能到底外化了什么(三大核心内容)
- 操作流程(Operational Procedure)
- 任务步骤、依赖关系、终止条件、恢复逻辑
- 作用:稳定执行长流程,不跑偏、不漏步
- 决策启发式(Decision Heuristics)
- 分支怎么选、优先做什么、失败怎么回退
- 作用:减少临场推理,让决策更稳定
- 规范约束(Normative Constraints)
- 合规、安全、权限、范围、审批要求
- 作用:让执行可控、可审计、符合规则
一句话:技能 = 步骤 + 策略 + 约束
3.2.3 技能在工程上的 6 大关键作用
- 把「即兴生成」变成「复用执行」,大幅提升可靠性
- 不再每次从零生成 workflow
- 直接加载预验证、可复用的技能包
- 执行一致性、成功率显著提升
- 降低上下文负担,避免"中间丢失"
- 技能支持分步加载(Progressive Disclosure)
- 不用把所有流程塞进 prompt
- 复杂任务也能稳定跑
- 让智能体能力可组合、可搭建
- 技能是可插拔单元
- 大任务 = 多个技能组合(串行/并行/条件)
- 类似"乐高式"构建复杂能力
- 让能力可治理、可审计、可更新
- 技能是外部文件(如 skill.md)
- 可审查、可版本、可回滚、可权限控制
- 不用改模型就能修复错误、更新规则
- 成为经验→能力的转化通道
- 记忆存的是"发生了什么"
- 技能是"从中提炼出怎么做"
- 技能让智能体真正学会、而不只是记住
- 连接模型与工具/协议的"桥梁"
- 技能告诉模型什么时候调用工具、怎么调用、调用后做什么
- 工具只是动作,技能是完整任务策略
3.2.4 技能和工具调用的本质区别,可参考
| 维度 | 工具调用(Tool/Function) | 技能(Skill) |
|---|---|---|
| 层级 | 原子操作 | 完整任务流程 |
| 内容 | 单个 API/命令 | 步骤+策略+约束 |
| 目标 | 能不能执行 | 如何稳定、合规、高效完成 |
| 复用 | 单次调用 | 跨任务、跨会话复用 |
| 治理 | 难管控 | 可审计、可版本、可审批 |
工具是手,技能是大脑里的"做事方法"。
3.2.5 在整个架构里的位置
- 记忆:存历史与状态
- 技能:存怎么做、按什么流程做
- 协议:规定怎么和外部交互
- 管控层(Harness):加载技能、调度技能、监控执行
3.2.6 一句话总结
技能系统是 LLM 智能体的「外部专家流程库」,将不稳定的即兴推理转化为稳定、可复用、可组合、可治理的程序化执行能力,是实现长流程、高可靠、生产级智能体的核心模块。
3.3 Protocols(协议)——外部化的交互结构
协议 = 把智能体的「交互规则与接口标准」从模型内部外化出来,解决多主体协作混乱、工具调用不规范、权限失控、跨系统不兼容的问题,是让智能体从"单体工具"进化为"可协作生态单元"的关键基础设施。
image
3.3.1 核心定位:解决「交互与协作混乱」
LLM 智能体在真实场景中需与工具、其他智能体、用户频繁交互,原生交互存在四大痛点:
- 工具调用格式不统一,易解析失败
- 多智能体协作无规则,易冲突、重复执行
- 权限无边界,易越权操作、数据泄露
- 跨系统/跨平台无法兼容,割裂能力
协议通过标准化交互结构、定义交互边界、固化协作规则,让智能体交互从"即兴对话"变成"规范通信"。
3.3.2 协议的四大核心分类
| 协议类型 | 交互主体 | 核心目标 | 代表协议 | 核心作用 |
|---|---|---|---|---|
| 智能体-工具协议 | Agent ↔ 工具/API | 规范工具调用的输入输出、权限、执行逻辑 | MCP、ToolLink | 统一工具接口,避免解析错误,管控工具使用权限 |
| 智能体-智能体协议 | Agent ↔ Agent | 标准化多智能体协作、任务分配、结果同步 | A2A、ACP | 解决多智能体冲突,实现协同执行、结果互认 |
| 智能体-用户协议 | Agent ↔ 用户 | 规范用户与智能体的交互流程、反馈格式 | A2UI、AG-UI | 让交互更友好、可控,明确用户权限与响应预期 |
| 领域专用协议 | 垂直领域场景 | 适配行业/领域的特殊交互规则与数据格式 | UCP、AP2 | 贴合领域需求,提升交互合规性与效率 |
3.3.3 协议在工程上的 5 大核心价值
- 统一交互标准,降低协作成本
- 所有主体遵循同一协议规范,无需适配不同系统的交互格式
- 工具调用统一用 MCP schema,智能体之间协作用 ACP 协议,实现"即接即用"
- 固化权限与安全治理,杜绝越权
- 协议中硬编码交互权限
- 从根本上避免智能体越权访问敏感数据、执行危险操作
- 支持细粒度权限控制(用户/智能体/工具三级权限),满足合规要求
- 强化可观测性与可审计性
- 协议交互的每一步都有标准化日志、轨迹记录
- 可追溯"谁在什么时间、通过什么协议、做了什么操作"
- 让智能体系统从"黑盒交互"变成"可审计的规范流程"
- 突破智能体能力边界,构建协作生态
- 单个智能体能力有限,通过协议可组合其他智能体的能力
- 例如:搜索智能体 + 写作智能体 + 绘图智能体,通过 A2A 协议协作完成复杂任务
- 实现"能力积木化",拓展智能体的业务适配范围
- 降低厂商/系统依赖,提升可移植性
- 协议是外部标准化接口,不绑定具体模型/工具厂商
- 更换模型、工具、平台时,只需适配协议,无需重构核心交互逻辑
- 让智能体成为"跨平台可迁移"的通用执行单元
3.3.4 与其他模块的协同关系
- 协议 ↔ 记忆:协议交互的历史记录写入记忆系统;记忆中的历史数据可优化协议规则
- 协议 ↔ 技能:技能通过协议调用工具/协作其他智能体;技能流程可固化为协议分支规则
- 协议 ↔ 管控层:管控层负责协议的调度与执行;提供底层安全与可观测性支撑
3.3.5 一句话总结
协议是 LLM 智能体的"交互通用语言",通过标准化、规范化、可治理的交互规则,实现多主体高效协作、安全交互,是构建可扩展、可协作、生产级智能体生态的核心基础设施。
四、Harness(框架工程)——统一协调层
如果说 Memory、Skills、Protocols 是三个独立模块,那Harness就是把它们黏合在一起的"胶水"。
Harness 负责:
- 🔄控制流编排:任务如何分解和执行
- 🏖️沙箱隔离:危险操作不能破坏系统
- 👀人工审批:高风险操作需要人类确认
- 📊可观测性:记录行为、便于调试
- ⚙️配置管理:权限、策略、约束
简单说:**Harness 就是 AI 智能体的"操作系统"**。
五、核心洞察
这篇论文最重要的洞察是:外部化不是给 AI 添加更多能力,而是改变了 AI 需要解决的问题的性质。
| 之前 | 之后 |
|---|---|
| ❌ "回忆"过去发生的事 | ✅ "识别"相关的事实 |
| ❌ "发明"任务流程 | ✅ "选择"已有流程 |
| ❌ "临时协商"接口 | ✅ "遵循"标准协议 |
这和人类使用工具的逻辑完全一致:不是让我们更聪明,而是让问题变简单。
六、未来展望
论文展望了6 大核心未来方向:
6.1 外化边界继续扩大
- 把规划、目标管理、评估验证、编排逻辑全部外化
- 让计划、评估、控制流都变成可持久、可编辑、可共享的外部对象
- 不再依赖模型临时推理,而是靠外部结构保证稳定
6.2 从文本外化 → 多模态外化
- 记忆、技能、协议都要支持图像、视频、音频、界面操作
- 多模态技能:封装视觉感知 + 操作流程
- 多模态记忆:存储并检索非文本经验
- 多模态协议:跨模态交互标准化
6.3 从数字智能体 → 具身智能
- 机器人同样遵循:大脑(LLM 规划)+ 小脑(VLA 动作执行)
- 规划、状态、技能、交互全部外化
- 数字智能体的外化逻辑可以直接迁移到机器人
6.4 自演进管控(Self-Evolving Harness)
- 让管控层自己改自己:自动调策略、修流程、优化路由
- 用 RL、程序合成、进化算法让系统自动变更好
- 目标:从人工维护 → 自适应、自优化智能体系统
6.5 从私有脚手架 → 共享智能体基础设施
- 记忆、技能、协议变成公共可共享资源
- 形成生态级共享:共享技能库、共享记忆、共享协议标准
- 智能体之间可以互相学习、互相调用、互相协作
- 风险:需要更强的治理、版本、安全机制
6.6 建立真正衡量"外化质量"的评估体系
- 现有 benchmark 只测任务成功率,不算外化的贡献
- 未来要评估:
- 可迁移性(换模型还能用吗)
- 可维护性(好更新吗)
- 上下文效率(省不省 token)
- 可治理性(安全、透明、可回滚)
- 长时序稳定性
一句话总结
未来 LLM 智能体将走向:外化范围持续扩大、多模态全面支持、具身智能适用、管控自演进、基础设施共享、评估体系专业化。
最后
对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?
答案只有一个:人工智能(尤其是大模型方向)
当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右。
再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。
对于想入局大模型、抢占未来10年行业红利的程序员和小白来说,现在正是最好的学习时机:行业缺口大、大厂需求旺、薪资天花板高,只要找准学习方向,稳步提升技能,就能轻松摆脱“低薪困境”,抓住AI时代的职业机遇。
如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!
下面是我整理的大模型学习资源,希望能帮到你。
👇👇扫码免费领取全部内容👇👇
1、大模型学习路线
2、从0到进阶大模型学习视频教程
从入门到进阶这里都有,跟着老师学习事半功倍。
3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)
4、AI大模型最新行业报告
2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5、面试试题/经验
【大厂 AI 岗位面经分享(107 道)】
【AI 大模型面试真题(102 道)】
【LLMs 面试真题(97 道)】
6、大模型项目实战&配套源码
适用人群
四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身:基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例:如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…
👇👇扫码免费领取全部内容👇👇
3、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】