收藏必备！小白程序员必学：大模型外部化技术核心揭秘-编程阁

本文介绍了LLM智能体外部化技术，核心观点是AI智能体进步不再依赖大模型，而是依靠更好的外部基础设施。外部化包含三大支柱：记忆系统解决连续性问题，技能系统固化流程化专家能力，协议系统规范交互规则。外部化让智能体从"一次性推理"变为"可持续执行主体"，从"即兴创作"变为"按手册执行"，从"单体工具"进化为"可协作生态单元"，并提升了可靠性、可复用性、可治理性。未来将走向外化范围扩大、多模态支持、具身智能适用、管控自演进、基础设施共享和评估体系专业化。

一、什么是外部化？

想象一下，如果一个人要记住所有事情、想出所有流程、协调所有工作，那他一定会累趴下。LLM 智能体（Agent）也面临着同样的问题。

这篇重量级论文提出了一个核心观点：**现代 AI 智能体的进步，不再仅仅依靠"更大的模型"，而是依靠"更好的外部基础设施"**——也就是把认知负担外包给外部系统。

Donald A. Norman 在《认知Artifacts》中说过：

“认知工具的力量来自于它的表征功能……认知Artifacts不改变人类的能力，它改变了任务本身。”

翻译成人话就是：一个好的工具，不是让你变得更聪明，而是让问题变得更简单。

例如：

📝购物清单：不是增强记忆力，而是把"回忆"变成"识别"
🗺️地图：不是让导航更强，而是把"隐藏的空间关系"变成"可见的结构"

LLM 智能体也在经历同样的转变——把内部难以处理的认知负担，转移到外部可控的系统中。

二、AI 智能体的演进历程

论文用一张图概括了 AI 智能体的演进历史：

image

从 2022 到 2026 年，AI 社区的重心经历了三次转移：

阶段	核心	特点
权重时代	模型参数即能力	能力靠训练，修改靠微调
上下文时代	提示工程即能力	靠精心设计的 prompt 引导行为
框架时代	基础设施即能力	靠外部 Memory、Skills、Protocols 组织智能

三、外部化的三大支柱

外部化架构可以用这张图来理解：

image

3.1 Memory（记忆）——外部化的时间状态

记忆系统解决的问题：连续性问题

记忆系统的本质是把智能体的时序状态从模型内部外化出来，解决 LLM 天生无状态、上下文有限、易遗忘、难跨会话的根本缺陷，是实现长时序、可恢复、可累积、可治理的智能体的基础模块。

想象一个场景：你让 AI 帮你写代码，中途打断了，再继续时它完全忘了之前做了什么。

image

3.1.1 核心定位：解决"连续性负担"

LLM 原生是stateless（无状态）的，每次调用都是全新上下文，无法自然保持：

跨会话历史
任务中间状态
失败与经验
用户偏好与环境信息

记忆系统把这些负担从模型内部移到外部持久存储，让智能体从"一次性推理"变成"可持续执行的主体"。

3.1.2 四大核心功能

工作上下文（Working Context）

保存当前任务的中间状态：打开文件、临时变量、执行断点、计划草稿
作用：支持任务中断后恢复，不用每次重启都从头重建状态
典型系统：OpenHands、SWE-Agent、InfiAgent

情景经验（Episodic Experience）

记录历史执行轨迹：决策点、工具调用、失败原因、反思总结
作用：避免重复犯错、提供先例参考、为技能提炼提供原料
典型系统：Reflexion、AriGraph

语义知识（Semantic Knowledge）

存储抽象知识、领域规则、项目规范、稳定常识
作用：提供稳定背景知识，不依赖模型权重里的过时/模糊知识
典型系统：RAG、Knowledge Base、GraphRAG

个性化记忆（Personalized Memory）

存储用户/团队专属信息：偏好、习惯、约束、历史交互
作用：实现跨会话个性化，区分通用知识与用户专属状态
典型系统：VARS、IFRAgent

3.1.3 在智能体架构中的关键工程价值

把"回忆"变成"检索"，大幅提升可靠性

不用让模型从权重里"回想"历史 → 改为从外部存储"识别并取用"
从根本解决遗忘、幻觉、信息不一致

突破上下文窗口限制，实现无限长时序能力

不把所有历史塞进 prompt → 只检索当前需要的片段
支持超长任务、多轮对话、多天/多会话持续执行

为技能系统提供"原料"

记忆存的是经验轨迹
技能是从轨迹中提炼出的可复用流程
没有记忆 → 技能无法自动生成、更新、迭代

支撑管控层（Harness）的治理与可观测性

所有行为可记录、可追溯、可审计
支持权限、版本、回滚、审查
让智能体从"黑盒生成"变成"可管控系统"

实现跨任务、跨会话、跨智能体的知识共享

记忆可以持久化、导出、共享
让能力不局限在单次调用，而是可累积、可迁移

3.1.4 与其他模块的协同关系

记忆 ↔ 技能：记忆提供经验 → 提炼成技能；技能执行 → 产生新记忆
记忆 ↔ 协议：协议交互结果 → 写入记忆；记忆状态 → 决定走哪条协议路径
记忆 ↔ 管控层：管控层负责记忆的读写权限、检索策略、生命周期、遗忘策略

3.1.5 一句话总结

记忆系统是 LLM 智能体的"外部大脑与时间轴"，负责外化时序状态、突破上下文限制、积累经验、支撑技能进化，并让智能体具备长时序、可恢复、可治理的工程能力。

3.2 Skills（技能）——外部化的程序知识

技能 = 把智能体的「流程化专家能力」从模型内部外化出来，解决 LLM 每次都要即兴生成步骤、不稳定、不一致、不可控的问题，是实现可靠、可复用、可治理、可组合的复杂任务执行的核心模块。

image

3.2.1 核心定位：解决「流程一致性负担」

LLM 虽然会推理，但天生不稳定：

每次生成的步骤不一样
容易漏步骤、乱顺序、提前终止
无法稳定遵守规范、合规、安全规则
复杂任务无法重复执行

技能系统把「怎么做」固化成外部可执行流程，让智能体从"即兴创作"变成"按手册执行"。

3.2.2 技能到底外化了什么（三大核心内容）

操作流程（Operational Procedure）

任务步骤、依赖关系、终止条件、恢复逻辑
作用：稳定执行长流程，不跑偏、不漏步

决策启发式（Decision Heuristics）

分支怎么选、优先做什么、失败怎么回退
作用：减少临场推理，让决策更稳定

规范约束（Normative Constraints）

合规、安全、权限、范围、审批要求
作用：让执行可控、可审计、符合规则

一句话：技能 = 步骤 + 策略 + 约束

3.2.3 技能在工程上的 6 大关键作用

把「即兴生成」变成「复用执行」，大幅提升可靠性

不再每次从零生成 workflow
直接加载预验证、可复用的技能包
执行一致性、成功率显著提升

降低上下文负担，避免"中间丢失"

技能支持分步加载（Progressive Disclosure）
不用把所有流程塞进 prompt
复杂任务也能稳定跑

让智能体能力可组合、可搭建

技能是可插拔单元
大任务 = 多个技能组合（串行/并行/条件）
类似"乐高式"构建复杂能力

让能力可治理、可审计、可更新

技能是外部文件（如 skill.md）
可审查、可版本、可回滚、可权限控制
不用改模型就能修复错误、更新规则

成为经验→能力的转化通道

记忆存的是"发生了什么"
技能是"从中提炼出怎么做"
技能让智能体真正学会、而不只是记住

连接模型与工具/协议的"桥梁"

技能告诉模型什么时候调用工具、怎么调用、调用后做什么
工具只是动作，技能是完整任务策略

3.2.4 技能和工具调用的本质区别，可参考

维度	工具调用（Tool/Function）	技能（Skill）
层级	原子操作	完整任务流程
内容	单个 API/命令	步骤+策略+约束
目标	能不能执行	如何稳定、合规、高效完成
复用	单次调用	跨任务、跨会话复用
治理	难管控	可审计、可版本、可审批

工具是手，技能是大脑里的"做事方法"。

3.2.5 在整个架构里的位置

记忆：存历史与状态
技能：存怎么做、按什么流程做
协议：规定怎么和外部交互
管控层（Harness）：加载技能、调度技能、监控执行

3.2.6 一句话总结

技能系统是 LLM 智能体的「外部专家流程库」，将不稳定的即兴推理转化为稳定、可复用、可组合、可治理的程序化执行能力，是实现长流程、高可靠、生产级智能体的核心模块。

3.3 Protocols（协议）——外部化的交互结构

协议 = 把智能体的「交互规则与接口标准」从模型内部外化出来，解决多主体协作混乱、工具调用不规范、权限失控、跨系统不兼容的问题，是让智能体从"单体工具"进化为"可协作生态单元"的关键基础设施。

image

3.3.1 核心定位：解决「交互与协作混乱」

LLM 智能体在真实场景中需与工具、其他智能体、用户频繁交互，原生交互存在四大痛点：

工具调用格式不统一，易解析失败
多智能体协作无规则，易冲突、重复执行
权限无边界，易越权操作、数据泄露
跨系统/跨平台无法兼容，割裂能力

协议通过标准化交互结构、定义交互边界、固化协作规则，让智能体交互从"即兴对话"变成"规范通信"。

3.3.2 协议的四大核心分类

协议类型	交互主体	核心目标	代表协议	核心作用
智能体-工具协议	Agent ↔ 工具/API	规范工具调用的输入输出、权限、执行逻辑	MCP、ToolLink	统一工具接口，避免解析错误，管控工具使用权限
智能体-智能体协议	Agent ↔ Agent	标准化多智能体协作、任务分配、结果同步	A2A、ACP	解决多智能体冲突，实现协同执行、结果互认
智能体-用户协议	Agent ↔ 用户	规范用户与智能体的交互流程、反馈格式	A2UI、AG-UI	让交互更友好、可控，明确用户权限与响应预期
领域专用协议	垂直领域场景	适配行业/领域的特殊交互规则与数据格式	UCP、AP2	贴合领域需求，提升交互合规性与效率

3.3.3 协议在工程上的 5 大核心价值

统一交互标准，降低协作成本

所有主体遵循同一协议规范，无需适配不同系统的交互格式
工具调用统一用 MCP schema，智能体之间协作用 ACP 协议，实现"即接即用"

固化权限与安全治理，杜绝越权

协议中硬编码交互权限
从根本上避免智能体越权访问敏感数据、执行危险操作
支持细粒度权限控制（用户/智能体/工具三级权限），满足合规要求

强化可观测性与可审计性

协议交互的每一步都有标准化日志、轨迹记录
可追溯"谁在什么时间、通过什么协议、做了什么操作"
让智能体系统从"黑盒交互"变成"可审计的规范流程"

突破智能体能力边界，构建协作生态

单个智能体能力有限，通过协议可组合其他智能体的能力
例如：搜索智能体 + 写作智能体 + 绘图智能体，通过 A2A 协议协作完成复杂任务
实现"能力积木化"，拓展智能体的业务适配范围

降低厂商/系统依赖，提升可移植性

协议是外部标准化接口，不绑定具体模型/工具厂商
更换模型、工具、平台时，只需适配协议，无需重构核心交互逻辑
让智能体成为"跨平台可迁移"的通用执行单元

3.3.4 与其他模块的协同关系

协议 ↔ 记忆：协议交互的历史记录写入记忆系统；记忆中的历史数据可优化协议规则
协议 ↔ 技能：技能通过协议调用工具/协作其他智能体；技能流程可固化为协议分支规则
协议 ↔ 管控层：管控层负责协议的调度与执行；提供底层安全与可观测性支撑

3.3.5 一句话总结

协议是 LLM 智能体的"交互通用语言"，通过标准化、规范化、可治理的交互规则，实现多主体高效协作、安全交互，是构建可扩展、可协作、生产级智能体生态的核心基础设施。

四、Harness（框架工程）——统一协调层

如果说 Memory、Skills、Protocols 是三个独立模块，那Harness就是把它们黏合在一起的"胶水"。

Harness 负责：

🔄控制流编排：任务如何分解和执行
🏖️沙箱隔离：危险操作不能破坏系统
👀人工审批：高风险操作需要人类确认
📊可观测性：记录行为、便于调试
⚙️配置管理：权限、策略、约束

简单说：**Harness 就是 AI 智能体的"操作系统"**。

五、核心洞察

这篇论文最重要的洞察是：外部化不是给 AI 添加更多能力，而是改变了 AI 需要解决的问题的性质。

之前	之后
❌ "回忆"过去发生的事	✅ "识别"相关的事实
❌ "发明"任务流程	✅ "选择"已有流程
❌ "临时协商"接口	✅ "遵循"标准协议

这和人类使用工具的逻辑完全一致：不是让我们更聪明，而是让问题变简单。

六、未来展望

论文展望了6 大核心未来方向：

6.1 外化边界继续扩大

把规划、目标管理、评估验证、编排逻辑全部外化
让计划、评估、控制流都变成可持久、可编辑、可共享的外部对象
不再依赖模型临时推理，而是靠外部结构保证稳定

6.2 从文本外化 → 多模态外化

记忆、技能、协议都要支持图像、视频、音频、界面操作
多模态技能：封装视觉感知 + 操作流程
多模态记忆：存储并检索非文本经验
多模态协议：跨模态交互标准化

6.3 从数字智能体 → 具身智能

机器人同样遵循：大脑（LLM 规划）+ 小脑（VLA 动作执行）
规划、状态、技能、交互全部外化
数字智能体的外化逻辑可以直接迁移到机器人

6.4 自演进管控（Self-Evolving Harness）

让管控层自己改自己：自动调策略、修流程、优化路由
用 RL、程序合成、进化算法让系统自动变更好
目标：从人工维护 → 自适应、自优化智能体系统

6.5 从私有脚手架 → 共享智能体基础设施

记忆、技能、协议变成公共可共享资源
形成生态级共享：共享技能库、共享记忆、共享协议标准
智能体之间可以互相学习、互相调用、互相协作
风险：需要更强的治理、版本、安全机制

6.6 建立真正衡量"外化质量"的评估体系

现有 benchmark 只测任务成功率，不算外化的贡献
未来要评估：

可迁移性（换模型还能用吗）
可维护性（好更新吗）
上下文效率（省不省 token）
可治理性（安全、透明、可回滚）
长时序稳定性

一句话总结

未来 LLM 智能体将走向：外化范围持续扩大、多模态全面支持、具身智能适用、管控自演进、基础设施共享、评估体系专业化。

最后

对于正在迷茫择业、想转行提升，或是刚入门的程序员、编程小白来说，有一个问题几乎人人都在问：未来10年，什么领域的职业发展潜力最大？

答案只有一个：人工智能（尤其是大模型方向）

当下，人工智能行业正处于爆发式增长期，其中大模型相关岗位更是供不应求，薪资待遇直接拉满——字节跳动作为AI领域的头部玩家，给硕士毕业的优质AI人才（含大模型相关方向）开出的月基础工资高达5万—6万元；即便是非“人才计划”的普通应聘者，月基础工资也能稳定在4万元左右。

再看阿里、腾讯两大互联网大厂，非“人才计划”的AI相关岗位应聘者，月基础工资也约有3万元，远超其他行业同资历岗位的薪资水平，对于程序员、小白来说，无疑是绝佳的转型和提升赛道。

对于想入局大模型、抢占未来10年行业红利的程序员和小白来说，现在正是最好的学习时机：行业缺口大、大厂需求旺、薪资天花板高，只要找准学习方向，稳步提升技能，就能轻松摆脱“低薪困境”，抓住AI时代的职业机遇。

如果你还不知道从何开始，我自己整理一套全网最全最细的大模型零基础教程，我也是一路自学走过来的，很清楚小白前期学习的痛楚，你要是没有方向还没有好的资源，根本学不到东西！

下面是我整理的大模型学习资源，希望能帮到你。

👇👇扫码免费领取全部内容👇👇

1、大模型学习路线

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有，跟着老师学习事半功倍。

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

4、AI大模型最新行业报告

2026最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…
👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、什么是外部化？

二、AI 智能体的演进历程

三、外部化的三大支柱

3.1 Memory（记忆）——外部化的时间状态

3.1.1 核心定位：解决"连续性负担"

3.1.2 四大核心功能

3.1.3 在智能体架构中的关键工程价值

3.1.4 与其他模块的协同关系

3.1.5 一句话总结

3.2 Skills（技能）——外部化的程序知识

3.2.1 核心定位：解决「流程一致性负担」

3.2.2 技能到底外化了什么（三大核心内容）

3.2.3 技能在工程上的 6 大关键作用

3.2.4 技能和工具调用的本质区别，可参考

3.2.5 在整个架构里的位置

3.2.6 一句话总结

3.3 Protocols（协议）——外部化的交互结构

3.3.1 核心定位：解决「交互与协作混乱」

3.3.2 协议的四大核心分类

3.3.3 协议在工程上的 5 大核心价值

3.3.4 与其他模块的协同关系

3.3.5 一句话总结

四、Harness（框架工程）——统一协调层

五、核心洞察

六、未来展望

6.1 外化边界继续扩大

6.2 从文本外化 → 多模态外化

6.3 从数字智能体 → 具身智能

6.4 自演进管控（Self-Evolving Harness）

6.5 从私有脚手架 → 共享智能体基础设施

6.6 建立真正衡量"外化质量"的评估体系

一句话总结

最后

1、大模型学习路线

2、从0到进阶大模型学习视频教程

3、 入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

4、AI大模型最新行业报告

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

3、这些资料真的有用吗？

很多人不知道：你吃的营养品可能70%都浪费了，澳洲这项92%吸收率的专利终于公开

从硬件布局到软件交互：深度拆解Xilinx PCIE IP核的GT接口与AXI总线设计

云原生可观测性

how to configure hermes agent

嵌入式实战指南：PWM模式在STM32定时器中的深度解析与应用

Linux基础学习

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）