news 2026/4/16 15:46:14

收藏必备!小白程序员必学:大模型外部化技术核心揭秘

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
收藏必备!小白程序员必学:大模型外部化技术核心揭秘

本文介绍了LLM智能体外部化技术,核心观点是AI智能体进步不再依赖大模型,而是依靠更好的外部基础设施。外部化包含三大支柱:记忆系统解决连续性问题,技能系统固化流程化专家能力,协议系统规范交互规则。外部化让智能体从"一次性推理"变为"可持续执行主体",从"即兴创作"变为"按手册执行",从"单体工具"进化为"可协作生态单元",并提升了可靠性、可复用性、可治理性。未来将走向外化范围扩大、多模态支持、具身智能适用、管控自演进、基础设施共享和评估体系专业化。

一、什么是外部化?

想象一下,如果一个人要记住所有事情、想出所有流程、协调所有工作,那他一定会累趴下。LLM 智能体(Agent)也面临着同样的问题。

这篇重量级论文提出了一个核心观点:**现代 AI 智能体的进步,不再仅仅依靠"更大的模型",而是依靠"更好的外部基础设施"**——也就是把认知负担外包给外部系统。

Donald A. Norman 在《认知Artifacts》中说过:

“认知工具的力量来自于它的表征功能……认知Artifacts不改变人类的能力,它改变了任务本身。”

翻译成人话就是:一个好的工具,不是让你变得更聪明,而是让问题变得更简单。

例如:

  • 📝购物清单:不是增强记忆力,而是把"回忆"变成"识别"
  • 🗺️地图:不是让导航更强,而是把"隐藏的空间关系"变成"可见的结构"

LLM 智能体也在经历同样的转变——把内部难以处理的认知负担,转移到外部可控的系统中。


二、AI 智能体的演进历程

论文用一张图概括了 AI 智能体的演进历史:

image

从 2022 到 2026 年,AI 社区的重心经历了三次转移:

阶段核心特点
权重时代模型参数即能力能力靠训练,修改靠微调
上下文时代提示工程即能力靠精心设计的 prompt 引导行为
框架时代基础设施即能力靠外部 Memory、Skills、Protocols 组织智能

三、外部化的三大支柱

外部化架构可以用这张图来理解:

image

3.1 Memory(记忆)——外部化的时间状态

记忆系统解决的问题:连续性问题

记忆系统的本质是把智能体的时序状态从模型内部外化出来,解决 LLM 天生无状态、上下文有限、易遗忘、难跨会话的根本缺陷,是实现长时序、可恢复、可累积、可治理的智能体的基础模块。

想象一个场景:你让 AI 帮你写代码,中途打断了,再继续时它完全忘了之前做了什么。

image

3.1.1 核心定位:解决"连续性负担"

LLM 原生是stateless(无状态)的,每次调用都是全新上下文,无法自然保持:

  • 跨会话历史
  • 任务中间状态
  • 失败与经验
  • 用户偏好与环境信息

记忆系统把这些负担从模型内部移到外部持久存储,让智能体从"一次性推理"变成"可持续执行的主体"。

3.1.2 四大核心功能
  1. 工作上下文(Working Context)
  • 保存当前任务的中间状态:打开文件、临时变量、执行断点、计划草稿
  • 作用:支持任务中断后恢复,不用每次重启都从头重建状态
  • 典型系统:OpenHands、SWE-Agent、InfiAgent
  1. 情景经验(Episodic Experience)
  • 记录历史执行轨迹:决策点、工具调用、失败原因、反思总结
  • 作用:避免重复犯错、提供先例参考、为技能提炼提供原料
  • 典型系统:Reflexion、AriGraph
  1. 语义知识(Semantic Knowledge)
  • 存储抽象知识、领域规则、项目规范、稳定常识
  • 作用:提供稳定背景知识,不依赖模型权重里的过时/模糊知识
  • 典型系统:RAG、Knowledge Base、GraphRAG
  1. 个性化记忆(Personalized Memory)
  • 存储用户/团队专属信息:偏好、习惯、约束、历史交互
  • 作用:实现跨会话个性化,区分通用知识与用户专属状态
  • 典型系统:VARS、IFRAgent
3.1.3 在智能体架构中的关键工程价值
  1. 把"回忆"变成"检索",大幅提升可靠性
  • 不用让模型从权重里"回想"历史 → 改为从外部存储"识别并取用"
  • 从根本解决遗忘、幻觉、信息不一致
  1. 突破上下文窗口限制,实现无限长时序能力
  • 不把所有历史塞进 prompt → 只检索当前需要的片段
  • 支持超长任务、多轮对话、多天/多会话持续执行
  1. 为技能系统提供"原料"
  • 记忆存的是经验轨迹
  • 技能是从轨迹中提炼出的可复用流程
  • 没有记忆 → 技能无法自动生成、更新、迭代
  1. 支撑管控层(Harness)的治理与可观测性
  • 所有行为可记录、可追溯、可审计
  • 支持权限、版本、回滚、审查
  • 让智能体从"黑盒生成"变成"可管控系统"
  1. 实现跨任务、跨会话、跨智能体的知识共享
  • 记忆可以持久化、导出、共享
  • 让能力不局限在单次调用,而是可累积、可迁移
3.1.4 与其他模块的协同关系
  • 记忆 ↔ 技能:记忆提供经验 → 提炼成技能;技能执行 → 产生新记忆
  • 记忆 ↔ 协议:协议交互结果 → 写入记忆;记忆状态 → 决定走哪条协议路径
  • 记忆 ↔ 管控层:管控层负责记忆的读写权限、检索策略、生命周期、遗忘策略
3.1.5 一句话总结

记忆系统是 LLM 智能体的"外部大脑与时间轴",负责外化时序状态、突破上下文限制、积累经验、支撑技能进化,并让智能体具备长时序、可恢复、可治理的工程能力。


3.2 Skills(技能)——外部化的程序知识

技能 = 把智能体的「流程化专家能力」从模型内部外化出来,解决 LLM 每次都要即兴生成步骤、不稳定、不一致、不可控的问题,是实现可靠、可复用、可治理、可组合的复杂任务执行的核心模块。

image

3.2.1 核心定位:解决「流程一致性负担」

LLM 虽然会推理,但天生不稳定:

  • 每次生成的步骤不一样
  • 容易漏步骤、乱顺序、提前终止
  • 无法稳定遵守规范、合规、安全规则
  • 复杂任务无法重复执行

技能系统把「怎么做」固化成外部可执行流程,让智能体从"即兴创作"变成"按手册执行"。

3.2.2 技能到底外化了什么(三大核心内容)
  1. 操作流程(Operational Procedure)
  • 任务步骤、依赖关系、终止条件、恢复逻辑
  • 作用:稳定执行长流程,不跑偏、不漏步
  1. 决策启发式(Decision Heuristics)
  • 分支怎么选、优先做什么、失败怎么回退
  • 作用:减少临场推理,让决策更稳定
  1. 规范约束(Normative Constraints)
  • 合规、安全、权限、范围、审批要求
  • 作用:让执行可控、可审计、符合规则

一句话:技能 = 步骤 + 策略 + 约束

3.2.3 技能在工程上的 6 大关键作用
  1. 把「即兴生成」变成「复用执行」,大幅提升可靠性
  • 不再每次从零生成 workflow
  • 直接加载预验证、可复用的技能包
  • 执行一致性、成功率显著提升
  1. 降低上下文负担,避免"中间丢失"
  • 技能支持分步加载(Progressive Disclosure)
  • 不用把所有流程塞进 prompt
  • 复杂任务也能稳定跑
  1. 让智能体能力可组合、可搭建
  • 技能是可插拔单元
  • 大任务 = 多个技能组合(串行/并行/条件)
  • 类似"乐高式"构建复杂能力
  1. 让能力可治理、可审计、可更新
  • 技能是外部文件(如 skill.md)
  • 可审查、可版本、可回滚、可权限控制
  • 不用改模型就能修复错误、更新规则
  1. 成为经验→能力的转化通道
  • 记忆存的是"发生了什么"
  • 技能是"从中提炼出怎么做"
  • 技能让智能体真正学会、而不只是记住
  1. 连接模型与工具/协议的"桥梁"
  • 技能告诉模型什么时候调用工具、怎么调用、调用后做什么
  • 工具只是动作,技能是完整任务策略
3.2.4 技能和工具调用的本质区别,可参考
维度工具调用(Tool/Function)技能(Skill)
层级原子操作完整任务流程
内容单个 API/命令步骤+策略+约束
目标能不能执行如何稳定、合规、高效完成
复用单次调用跨任务、跨会话复用
治理难管控可审计、可版本、可审批

工具是手,技能是大脑里的"做事方法"。

3.2.5 在整个架构里的位置
  • 记忆:存历史与状态
  • 技能:存怎么做、按什么流程做
  • 协议:规定怎么和外部交互
  • 管控层(Harness):加载技能、调度技能、监控执行
3.2.6 一句话总结

技能系统是 LLM 智能体的「外部专家流程库」,将不稳定的即兴推理转化为稳定、可复用、可组合、可治理的程序化执行能力,是实现长流程、高可靠、生产级智能体的核心模块。


3.3 Protocols(协议)——外部化的交互结构

协议 = 把智能体的「交互规则与接口标准」从模型内部外化出来,解决多主体协作混乱、工具调用不规范、权限失控、跨系统不兼容的问题,是让智能体从"单体工具"进化为"可协作生态单元"的关键基础设施。

image

3.3.1 核心定位:解决「交互与协作混乱」

LLM 智能体在真实场景中需与工具、其他智能体、用户频繁交互,原生交互存在四大痛点:

  1. 工具调用格式不统一,易解析失败
  2. 多智能体协作无规则,易冲突、重复执行
  3. 权限无边界,易越权操作、数据泄露
  4. 跨系统/跨平台无法兼容,割裂能力

协议通过标准化交互结构、定义交互边界、固化协作规则,让智能体交互从"即兴对话"变成"规范通信"。

3.3.2 协议的四大核心分类
协议类型交互主体核心目标代表协议核心作用
智能体-工具协议Agent ↔ 工具/API规范工具调用的输入输出、权限、执行逻辑MCP、ToolLink统一工具接口,避免解析错误,管控工具使用权限
智能体-智能体协议Agent ↔ Agent标准化多智能体协作、任务分配、结果同步A2A、ACP解决多智能体冲突,实现协同执行、结果互认
智能体-用户协议Agent ↔ 用户规范用户与智能体的交互流程、反馈格式A2UI、AG-UI让交互更友好、可控,明确用户权限与响应预期
领域专用协议垂直领域场景适配行业/领域的特殊交互规则与数据格式UCP、AP2贴合领域需求,提升交互合规性与效率
3.3.3 协议在工程上的 5 大核心价值
  1. 统一交互标准,降低协作成本
  • 所有主体遵循同一协议规范,无需适配不同系统的交互格式
  • 工具调用统一用 MCP schema,智能体之间协作用 ACP 协议,实现"即接即用"
  1. 固化权限与安全治理,杜绝越权
  • 协议中硬编码交互权限
  • 从根本上避免智能体越权访问敏感数据、执行危险操作
  • 支持细粒度权限控制(用户/智能体/工具三级权限),满足合规要求
  1. 强化可观测性与可审计性
  • 协议交互的每一步都有标准化日志、轨迹记录
  • 可追溯"谁在什么时间、通过什么协议、做了什么操作"
  • 让智能体系统从"黑盒交互"变成"可审计的规范流程"
  1. 突破智能体能力边界,构建协作生态
  • 单个智能体能力有限,通过协议可组合其他智能体的能力
  • 例如:搜索智能体 + 写作智能体 + 绘图智能体,通过 A2A 协议协作完成复杂任务
  • 实现"能力积木化",拓展智能体的业务适配范围
  1. 降低厂商/系统依赖,提升可移植性
  • 协议是外部标准化接口,不绑定具体模型/工具厂商
  • 更换模型、工具、平台时,只需适配协议,无需重构核心交互逻辑
  • 让智能体成为"跨平台可迁移"的通用执行单元
3.3.4 与其他模块的协同关系
  • 协议 ↔ 记忆:协议交互的历史记录写入记忆系统;记忆中的历史数据可优化协议规则
  • 协议 ↔ 技能:技能通过协议调用工具/协作其他智能体;技能流程可固化为协议分支规则
  • 协议 ↔ 管控层:管控层负责协议的调度与执行;提供底层安全与可观测性支撑
3.3.5 一句话总结

协议是 LLM 智能体的"交互通用语言",通过标准化、规范化、可治理的交互规则,实现多主体高效协作、安全交互,是构建可扩展、可协作、生产级智能体生态的核心基础设施。


四、Harness(框架工程)——统一协调层

如果说 Memory、Skills、Protocols 是三个独立模块,那Harness就是把它们黏合在一起的"胶水"。

Harness 负责:

  • 🔄控制流编排:任务如何分解和执行
  • 🏖️沙箱隔离:危险操作不能破坏系统
  • 👀人工审批:高风险操作需要人类确认
  • 📊可观测性:记录行为、便于调试
  • ⚙️配置管理:权限、策略、约束

简单说:**Harness 就是 AI 智能体的"操作系统"**。


五、核心洞察

这篇论文最重要的洞察是:外部化不是给 AI 添加更多能力,而是改变了 AI 需要解决的问题的性质。

之前之后
❌ "回忆"过去发生的事✅ "识别"相关的事实
❌ "发明"任务流程✅ "选择"已有流程
❌ "临时协商"接口✅ "遵循"标准协议

这和人类使用工具的逻辑完全一致:不是让我们更聪明,而是让问题变简单。


六、未来展望

论文展望了6 大核心未来方向

6.1 外化边界继续扩大

  • 规划、目标管理、评估验证、编排逻辑全部外化
  • 让计划、评估、控制流都变成可持久、可编辑、可共享的外部对象
  • 不再依赖模型临时推理,而是靠外部结构保证稳定

6.2 从文本外化 → 多模态外化

  • 记忆、技能、协议都要支持图像、视频、音频、界面操作
  • 多模态技能:封装视觉感知 + 操作流程
  • 多模态记忆:存储并检索非文本经验
  • 多模态协议:跨模态交互标准化

6.3 从数字智能体 → 具身智能

  • 机器人同样遵循:大脑(LLM 规划)+ 小脑(VLA 动作执行)
  • 规划、状态、技能、交互全部外化
  • 数字智能体的外化逻辑可以直接迁移到机器人

6.4 自演进管控(Self-Evolving Harness)

  • 让管控层自己改自己:自动调策略、修流程、优化路由
  • 用 RL、程序合成、进化算法让系统自动变更好
  • 目标:从人工维护 → 自适应、自优化智能体系统

6.5 从私有脚手架 → 共享智能体基础设施

  • 记忆、技能、协议变成公共可共享资源
  • 形成生态级共享:共享技能库、共享记忆、共享协议标准
  • 智能体之间可以互相学习、互相调用、互相协作
  • 风险:需要更强的治理、版本、安全机制

6.6 建立真正衡量"外化质量"的评估体系

  • 现有 benchmark 只测任务成功率,不算外化的贡献
  • 未来要评估:
  • 可迁移性(换模型还能用吗)
  • 可维护性(好更新吗)
  • 上下文效率(省不省 token)
  • 可治理性(安全、透明、可回滚)
  • 长时序稳定性

一句话总结

未来 LLM 智能体将走向:外化范围持续扩大、多模态全面支持、具身智能适用、管控自演进、基础设施共享、评估体系专业化。

最后

对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?

答案只有一个:人工智能(尤其是大模型方向)

当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右

再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。


对于想入局大模型、抢占未来10年行业红利的程序员和小白来说,现在正是最好的学习时机:行业缺口大、大厂需求旺、薪资天花板高,只要找准学习方向,稳步提升技能,就能轻松摆脱“低薪困境”,抓住AI时代的职业机遇。

如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!

下面是我整理的大模型学习资源,希望能帮到你。

👇👇扫码免费领取全部内容👇👇

1、大模型学习路线

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有,跟着老师学习事半功倍。

3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)

4、AI大模型最新行业报告

2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享(107 道)】

【AI 大模型面试真题(102 道)】

【LLMs 面试真题(97 道)】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型

  • 带你了解全球大模型

  • 使用国产大模型服务

  • 搭建 OpenAI 代理

  • 热身:基于阿里云 PAI 部署 Stable Diffusion

  • 在本地计算机运行大模型

  • 大模型的私有化部署

  • 基于 vLLM 部署大模型

  • 案例:如何优雅地在阿里云私有部署开源大模型

  • 部署一套开源 LLM 项目

  • 内容安全

  • 互联网信息服务算法备案

  • 👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 15:44:12

从硬件布局到软件交互:深度拆解Xilinx PCIE IP核的GT接口与AXI总线设计

从硬件布局到软件交互:深度拆解Xilinx PCIE IP核的GT接口与AXI总线设计 在高速数据传输领域,PCIE协议凭借其优异的带宽和灵活性已成为FPGA与主机通信的首选方案。Xilinx的PCIE IP核作为业界标杆,其GT接口的物理层设计与AXI总线的逻辑层交互直…

作者头像 李华
网站建设 2026/4/16 15:43:42

云原生可观测性

云原生可观测性 1. 可观测性的概念与价值 可观测性是指通过系统产生的数据(如指标、日志、追踪)来理解系统内部状态的能力。在云原生环境中,由于系统的复杂性和动态性,可观测性变得尤为重要。通过实现良好的可观测性,企…

作者头像 李华
网站建设 2026/4/16 15:43:42

how to configure hermes agent

reference:https://github.com/nousresearch/hermes-agenthermes setup→ (●) MiniMax China (domestic direct API) ← currently activeBase URL [https://api.minimaxi.com/anthropic]hermes config set MINIMAX_CN_API_KEY xxxxhermes dashboard --no-open --host 0.0.0.…

作者头像 李华
网站建设 2026/4/16 15:41:45

嵌入式实战指南:PWM模式在STM32定时器中的深度解析与应用

1. PWM技术基础与STM32定时器架构 第一次接触PWM时,我盯着示波器上跳动的方波百思不得其解——为什么调节占空比就能控制电机转速?后来在STM32项目里踩过几次坑才明白,PWM本质上是通过定时器精确控制高低电平时间的艺术。STM32的定时器就像个…

作者头像 李华
网站建设 2026/4/16 15:41:41

Linux基础学习

Linux常用命令1 什么是ShellShell 是你和操作系统之间的"翻译官"——你输入命令,它翻译给内核执行,再把结果返回给你。Shell 命令行界面的"外壳" Kernel(内核) 操作系统的核心 Shell 包裹在内核外面&#xf…

作者头像 李华