简介
Google最新研究提出统一AI Agent架构的概率数学框架,将Agent视为概率链,目标是最大化正确动作序列概率。文章分析ReAct架构优势与随机游走弱点,提出三大优化维度(提示工程、上下文工程、推理算法)及五个自由度。多智能体协作本质是搜索最优通信上下文,但需考虑协作成本。这一框架帮助开发者从"玄学"走向工程化设计Agent系统。
我们正处在一个AI Agent(智能体)爆发的时代。从简单的ReAct循环到复杂的Multi-Agent Swarm(多智能体蜂群),新的架构层出不穷。但在这些眼花缭乱的名词背后,开发者的工作往往更像是一门“玄学”,我们凭直觉调整提示词,凭经验增加Agent的数量,却很难说清楚为什么某个架构在特定任务上表现更好。
最近,来自Google Cloud AI的研究者Philip Stephens和Emmanuel Salawu发表了一篇极具分量的论文。他们做了一件工程界急需的事情:将这些凭直觉设计的Agent架构,统一到了一个严谨的“概率数学框架”之下。
这篇文章将带您深入剖析这篇论文。看看谷歌是如何用数学语言重新定义ReAct、控制流(Control Flow)和多智能体协作的。
一切皆概率:Agent的本质是什么?
在深入各种花哨的架构之前,研究者首先回归了原点:Agent到底是在做什么?
无论您的Agent是在写代码、做客服,还是在玩游戏,它的终极目标只有一个:在给定初始背景(Context)的情况下,最大化执行正确动作序列的概率。
核心公式:概率链
研究者提出,Agent的运行过程本质上就是一条概率链(Probability Chain)。
这就好比您在走迷宫,每一步的选择都取决于您当前的位置和您之前的记忆。数学上,我们可以这样描述:
这个公式告诉我们:
- c:是初始的上下文(Context),比如用户的原始需求。
- a:是动作(Action),是我们希望Agent采取的一系列步骤。
- s:是状态(State),它随着每一步的执行而更新。
为什么这很重要?
将Agent视为概率链,意味着我们的设计工作不再是“教模型说话”,而是“操纵概率”。
如果您设计的架构(无论是加更多的Agent还是改Prompt),不能在数学上提高这个概率值,那么这种设计就是无效的。这为我们评估不同架构提供了一把通用的标尺。
解构ReAct:为什么“思考”有用?
目前最流行的Agent模式莫过于ReAct (Reasoning + Acting)。也就是让模型在行动之前先生成一段“Thought”(思考)。但您有没有想过,为什么多生成一段文字(思考),就能提高任务成功率?
研究者给出了数学上的解释。
引入“思考”变量
在ReAct框架中,概率公式发生了变化。我们在状态s和动作a之间,插入了一个中间变量t(Thought)。
新的概率核心变成了:
这意味着:
- 如果不思考:模型直接从状态s跳跃到动作a,这个跨度可能太大,导致概率
很低(容易瞎蒙)。
- 如果思考:模型先根据状态s生成思考t,然后基于s和t共同决定动作a。
研究者指出,ReAct的本质就是通过引入t,来提高选择正确a的条件概率。
ReAct的致命弱点:随机游走
虽然ReAct很有效,但论文中也毫不客气地指出了它的缺陷。
从数学上看,标准的ReAct循环本质上是一种“随机游走”(Random Walk)。
- 它非常灵活,没有任何预设的路径。
- 但也正因为缺乏约束,它很容易出现“不收敛”的情况。
- 表现出来的症状就是我们常说的“幻觉循环”:Agent在错误的路径上越走越远,拉不回来了。
这就是为什么我们需要更复杂的架构,比如控制流或多智能体。
概率优化的三大战略维度
在深入具体的参数调节之前,我们需要先站在更高的战略视角,理解在概率链中,究竟是哪些核心机制在驱动系统的运转。研究者认为Agent优化空间的这三个核心维度是依次递进的:提示工程、上下文工程和推理算法。
这不仅仅是三个术语,它们分别对应了概率链中的起点 ()、过程演变 (
)和映射逻辑 (
)。
1. Prompt Engineering (提示工程)
数学定义:对初始状态的静态操作。
在论文的框架中,Prompt Engineering被严格定义为确定概率链起点的过程。
- 它的本质:它是“初始上下文”(Initial Context)。公式
表明,它是由用户输入c和模板参数(
)共同决定的。
- 在不同架构中的表现:
- 在ReAct中:它是静态的。通常只有一个通用的系统提示词(System Prompt)用于所有的步骤,涵盖了所有工具和指令。
- 在Control Flow / Multi-Agent中:它是动态的。每个图节点或每个Agent角色都有不同的
。这意味着你可以通过针对性地修改某个步骤的初始提示词,来专门优化该步骤的成功率。
通俗理解:如果把Agent比作考生,Prompt Engineering就是给考生发的“试卷说明书”。在简单模式下,整场考试只有一份说明书;在高级模式下,每一道大题都有一份专门定制的说明书。
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
2. Context Engineering (上下文工程)
数学定义:在每一步骤中,对状态进行动态的、策略性的操作。
这是论文中非常精彩的一个区分。很多人把Prompt和Context混为一谈,但论文指出Context Engineering是关于状态如何随时间更新的技术。
- 它的核心问题:当Agent执行完动作
并获得观察结果
后,下一个状态
应该长什么样?
- 三种更新策略 (
函数):
- 无损拼接 (Lossless Concatenation, ReAct默认):
。简单粗暴地把所有的思考、动作、观察结果拼接到历史记录后面。这会导致上下文窗口迅速膨胀,且包含大量噪声。
- 有损摘要更新 (Lossy Summarizing Update):
。在每一步都对过去的信息进行摘要压缩。
- 结构化选择性更新 (Structured Selective Update):
。引入记忆检索机制,只保留和当前步骤相关的信息。
- 价值:通过精心设计的Context Engineering,你可以在不改变模型的情况下,通过控制“喂”给模型的信息(即
),极大地提高
的概率。
通俗理解:这是考生的“草稿纸管理策略”。ReAct是把所有草稿不加筛选地往下写,越写越乱;Context Engineering则是每做完一题,就整理、擦除或总结草稿,确保下一题开始时思路清晰。
3. Inference Algorithms (推理算法)
数学定义:定义推理泛函和状态更新函数
的固定模式。
这不仅仅是指“换一个更聪明的模型”,而是指改变模型处理信息的方式。
是什么?论文用
来表示一个“泛函”(Functional)。
- 最简单的情况:
,即直接调用LLM模型进行预测。
- 复杂的情况:
可以代表一种复杂的推理过程,比如Tree of Thoughts (思维树)或Deep Thinking (深度思考)。
- 优化手段:
- 在ReAct中,
通常是单一且固定的(全程用同一个方式思考)。
- 在Control Flow或高级架构中,你可以动态切换推理逻辑。例如,对于简单的步骤,使用快速直觉的
(如gpt-3.5);对于需要逻辑推导的步骤,切换到复杂的
(如gpt-4 + 思维链)。
- 本质:这是在操纵概率核(Probability Kernel)。通过改变
,你实际上是在改变从状态
到动作
的映射函数本身。
通俗理解:这是考生的“解题大脑”。你可以选择全程用“快思考”(直觉),也可以强制要求在某几步使用“慢思考”(列提纲、反复推敲、自我反思)。Inference Algorithms就是决定在什么时候用哪种脑子的策略。
论文的结论是:传统的ReAct架构之所以在复杂任务中容易失败,是因为它锁死了这三个维度。它试图用“一套Prompt + 简单的拼接历史 + 一个模型”走天下。 而现代的Control Flow和Multi-Agent架构,实际上是解开了这些锁,允许开发者在每一个步骤(Step)或每一个节点(Node)上,独立地优化(提示)、
(上下文)和
(推理逻辑),从而最大化整体的成功概率。
设计者的工具箱:5个“自由度”
这篇论文最精彩的部分,在于它提出了“自由度”(Degrees of Freedom)的概念。这张图在网上很火。
研究者认为,无论您在构建什么样的Agent,您手中真正能调节的“旋钮”其实只有5个。不同的架构(ReAct vs Multi-Agent),无非就是对这5个旋钮的不同配置。
让我们逐一拆解这5个优化杠杆:
杠杆1:Prompt Engineering ()
这是初始状态的设定。
- 定义:如何将用户的输入
转化为模型的第一口“饲料”
。
- 您的操作空间:编写System Prompt、设置少样本示例(Few-Shot)等。
杠杆2:Update Function ()
这是记忆管理的方式。 当Agent执行了一步操作后,新的状态该如何生成?
- 追加(Append):这是ReAct的默认做法,把历史记录无限拼接。简单,但容易爆Context窗口。
- 摘要(Summary):对历史进行压缩。
- 选择性更新(Selective):只保留相关记忆。研究者指出,改变
函数是优化Agent长期记忆能力的关键。
杠杆3:Action Space ()
这是工具的可用性。
- 在这一步,Agent允许使用哪些工具?
- ReAct模式:通常是全局可见,所有工具都在列表里。
- 优化思路:通过限制动作空间(Partitioning),只给Agent当前步骤必要的工具,可以显著提高选择正确工具的概率。
杠杆4:Inference Model ()
这是推理的大脑。
- 您是全程使用同一个模型(比如GPT-4),还是在不同步骤切换不同能力的模型?
也可以代表一种复杂的推理过程,比如“思维树”(Tree of Thoughts),它本质上是一种更复杂的推理泛函。
杠杆5:Collaboration ()
这是多智能体协作特有的杠杆(稍后详细展开)。
- 这是关于Agent之间如何“传话”和“协商”的概率优化。
架构大比拼:用“自由度”看世界
有了上面这套理论,我们再来看现在的各种Agent架构,视野就完全不同了。研究者在论文中通过对比表格,清晰地展示了各架构的本质区别。
ReAct:被锁死的自由度
- Prompt (
):静态。通常全程只有一个System Prompt。
- Actions (
):全局。所有工具混在一起。
- Model (
):单一。全程一个模型跑到底。
- 结论:ReAct就像把一个全能选手扔进迷宫,虽然通用性强,但因为它是静态的,所以在特定复杂步骤上很难进行针对性优化。
Control Flow(控制流/工作流):人为的约束之美
现在流行的LangGraph或各种Workflow工具,在数学上是在做什么?
- Prompt:**动态,**到了“写代码”的节点,就换上“程序员”的Prompt;到了“测试”节点,就换上“测试员”的Prompt。
- Actions:**分区,**在特定节点,只暴露特定的工具。
- 数学含义:通过人为地“分割”动作空间和状态空间,我们强制将概率集中在正确的路径上,消除了“随机游走”的不确定性。
Multi-Agent(多智能体):开启新的维度
多智能体不仅仅是把任务拆分,它引入了一个全新的优化维度,协作(Collaboration)。
多智能体协作的数学本质
这是论文最核心的理论贡献之一。研究者问了一个深刻的问题:为什么两个Agent配合往往比一个超级Agent更好?
答案在于一个新的概率项:。
什么是协作概率?
在多智能体系统中,Agent A(比如产品经理)执行动作后,不仅仅是产生一个结果,它通过动作产生了一个上下文(Context)
,并把这个
传递给Agent B(比如程序员)。
公式如下:
这里代表:Agent A基于自己的行动,生成特定上下文
传递给Agent B的概率。
协作即“搜索”
这听起来很抽象,但请您这样理解: 协作和协商(Negotiation),本质上是在搜索最优的通信上下文。
- 单体Agent:只能自己闷头干,必须在给定的
下硬解
。
- 多智能体:Agent A的任务变成了“寻找一种最好的说法(
)”,使得Agent B成功的概率最大化。
研究者指出,这种“通过对话来动态调整上下文”的能力,实际上是在运行时(Runtime)动态微调系统的参数,而不需要重新训练模型。这就是多智能体系统强大的数学根源,它增加了一个巨大的、可优化的参数空间。
现实的考量:协作是有代价的
虽然多智能体协作听起来很美,但研究者非常冷静地泼了一盆冷水:协作是有成本的(Collaboration Costs)。
您增加的每一个Agent,每一次交互,都会带来:
- 延迟(Latency):网络请求和生成的耗时。
- 算力消耗(Tokens):真金白银的成本。
- 复杂性(Complexity):系统越复杂,越容易出错。
正则化目标函数
为了解决这个问题,论文提出了一个修正后的目标函数。我们在设计Agent时,不能只看成功率,还要看“性价比”。
:任务成功的概率。
:协作带来的总成本。
(Lambda):惩罚系数。
这个公式提醒我们:不要为了追求1%的概率提升,而引入过度复杂的协作流程。一个优秀的Agent架构师,应该在这个公式中找到平衡点,设计出既高效又经济的系统。这也是上周五的文章中介绍的观点,感兴趣您可以看下:
[![]()
总结:从艺术走向工程
读完这篇论文,最深刻的感受是它为AI Agent领域带来了一种秩序感。每一个决策是拆分Prompt,还是增加Agent交互,都可以映射到概率链上的具体变量。
希望这篇文章能帮助您透过数学的视角,重新审视您手中的Agent代码。下一次当您在优化Agent时,您调整的不再仅仅是文字,而是那条精妙的概率链。
如何学习AI大模型?
如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!
第一阶段:从大模型系统设计入手,讲解大模型的主要方法;
第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
100套AI大模型商业化落地方案
大模型全套视频教程
200本大模型PDF书籍
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
LLM面试题合集
大模型产品经理资源合集
大模型项目实战合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓