一篇不错的自进化Agents最新系统性综述-编程阁

近期，厦门大学、香港理工大学、马里兰大学、华盛顿大学圣路易斯分校、UIUC、新加坡管理大学等多机构联合发布了一篇关于Self-Evolving Agents（自进化智能体）的系统性综述：

A Systematic Survey of Self-Evolving Agents: From Model-Centric to Environment-Driven Co-Evolution

当 LLM Agent 不再只是被人类标注数据训练出来，而是能够主动探索、获得反馈、更新策略、积累经验时，我们应该如何理解它的“自进化”？

图1：Self-Evolving Agents 代表性工作发展趋势

从2022年到2026年，围绕 Agent 的研究快速从以模型自身能力增强为中心，逐步走向通过环境交互获取反馈、积累经验，并进一步发展为模型与环境相互驱动、共同进化的新范式。一条越来越清晰的技术主线正在形成：

Agent 的能力边界不只取决于模型参数，也取决于它如何与环境交互，并从交互中持续获得可用的学习信号。

为什么需要 Self-Evolving Agents？

传统 Agent 系统大多依赖一个“两阶段范式”：

Pre-Training：通过大规模语料学习通用世界知识；
Post-Training：通过 SFT、RLHF、RLAIF 或任务数据，让模型学习特定的 Agentic 能力。

这个范式已经极大推动了 LLM Agent 的发展，但它也有一个越来越明显的瓶颈：

Agent 越复杂，对高质量监督信号的依赖就越强；而高质量人类标注、人工奖励和专家反馈很难无限扩展。

对于简单问答任务，人类可以直接写答案；对于复杂 Agent任务，人类不仅要判断最终答案，还要理解多步规划、工具调用、环境反馈、错误恢复和长期状态变化。监督成本急剧上升。

Self-Evolving Agents 应用

更关键的是，如果 Agent 永远依赖人类提供学习信号，那么它的能力上限很容易被人类经验、标注规模和预定义任务边界限制住。

因此，Self-Evolving Agents 的核心动机是：

让 Agent 从被动接受人类监督，转向主动构造问题、探索环境、生成反馈、修正策略，并在闭环中持续提升。

这篇 survey 将 Self-Evolving Agents 概括为两个核心特征：

Strong autonomy with minimal human supervision：尽量减少对外部人工监督的依赖；
Active exploration through interaction：通过内部推理或外部环境交互主动探索和改进。

换句话说，自进化 Agent 不再只是一个“被训练好的模型”，而更像是一个可以参与自身成长过程的系统。

统一分类：三条自进化路线

这篇 survey 最重要的贡献，是提出了一个统一 taxonomy，将 Self-Evolving Agents 划分为三大范式：

Model-Centric Self-Evolution：模型中心自进化；
Environment-Centric Self-Evolution：环境中心自进化；
Model-Environment Co-Evolution：模型-环境共同进化。

图2：Self-Evolving Agents 统一分类框架

图2给出了全文的核心分类框架。这个框架的关键之处在于，它不是简单按照任务类型或技术模块划分，而是按照“进化发生在哪里”来组织整个领域：

如果进化主要发生在模型内部，就是 Model-Centric；
如果进化来自模型对外部知识、经验、工具和结构的利用，就是 Environment-Centric；
如果模型和环境都在持续变化，并互相推动对方变强，就是 Model-Environment Co-Evolution。

这一视角的重要性在于，它将原本分散的研究方向统一到一个递进式框架中：

从模型内部计算与参数更新驱动的能力增强，到环境交互与反馈驱动的经验积累，再到模型与环境相互适应、共同演化。

图3：Self-Evolving Agents 技术谱系总览

图3进一步展开了 Self-Evolving Agents 的完整技术分类，将不同演化路径下的方法系统组织起来，展示了该领域从内部能力增强、外部环境交互，到模型-环境共同演化的整体技术版图。它基本可以作为理解当前 Self-Evolving Agents 研究格局的一张技术地图。

Model-Centric Self-Evolution：模型先自己变强

第一条路线是Model-Centric Self-Evolution。

这类方法的基本假设是：模型内部已经包含大量潜在能力，只是没有被充分激发。因此，自进化首先可以从模型自身出发，通过更多推理计算、更好的搜索策略，或者自生成训练数据来提升能力。

这一路线可以进一步分成两类：

3.1 Inference-Based Evolution：推理时自进化

这类方法不更新模型参数，而是在单次推理过程中投入更多计算资源，让模型“想得更充分”。代表方向包括：

Parallel Sampling：并行采样多条推理路径，再通过投票、排序或一致性判断选择答案；
Sequential Self-Correction：生成、反思、修正，形成多轮自我纠错；
Structured Reasoning：将推理过程组织成树、图等结构。

它的本质是：

用更多 test-time compute 换取更可靠的单次输出。

但问题也很明显：这种改进通常是临时的。推理结束后，模型参数没有变化，能力不会被真正内化。

3.2 Training-Based Evolution：训练时自进化

相比之下，Training-Based Evolution 追求长期能力提升。模型会生成数据、筛选数据、评估数据，并通过 SFT 或 RL 将新能力写回参数。

这篇 survey 将其分为两条路线：

Synthesis-Driven Offline Self-Evolving：离线生成合成数据，再用于训练；
Exploration-Driven Online Self-Evolving：在线探索、实时反馈、持续更新策略。

图4：离线合成驱动进化与在线探索驱动进化对比

图4很好地展示了二者差异。离线合成方法更像“模型给自己出教材”，可以高效启动，但容易受限于初始模型能力；在线探索方法则更像“模型不断在探索中试错”，能够发现新的策略，但对反馈质量、训练稳定性和探索效率要求更高。

这也是为什么近年来 R-Zero、Absolute Zero、Agent0等工作受到关注：它们不满足于让模型复述已有知识，而是尝试让模型通过自博弈、环境反馈或任务探索获得新的训练信号。

Environment-Centric Self-Evolution：环境成为能力来源

第二条路线是Environment-Centric Self-Evolution。

如果说 Model-Centric 方法主要关注模型内部如何变强，那么 Environment-Centric 方法强调：

Agent 的进化不只来自参数更新，也来自它如何利用外部知识、经验、工具、记忆和多 Agent 结构。

这篇 survey 将环境中心自进化分为四个方向：

Static Knowledge Evolution：静态知识演化；
Dynamic Experience Evolution：动态经验演化；
Modular Architecture Evolution：模块架构演化；
Agentic Topology Evolution：Agent 拓扑演化。

4.1 Static Knowledge Evolution：从回答问题到主动找知识

传统 RAG 通常是“用户问问题，系统检索相关文档”。但 Agentic RAG 和 Deep Research 更进一步：Agent 会判断自己缺什么知识，主动生成查询、浏览网页、收集证据、整合推理，并最终生成结构化报告。

这意味着检索不再只是一个前置模块，而成为 Agent 推理链条中的主动认知行为。

4.2 Dynamic Experience Evolution：从知识到经验

知识解决的是 “what is”，经验解决的是 “how to do”。

很多 Agent 任务不是缺知识，而是缺经验：

哪种工具调用顺序更稳定？
哪类错误应该如何恢复？
哪些历史失败能指导当前决策？
哪些 workflow 可以复用到新任务？

因此，Dynamic Experience Evolution 关注如何从历史轨迹、成功案例、失败反馈和执行日志中提炼可复用经验。

图5：静态知识演化与动态经验演化对比

图5将 Static Knowledge Evolution 和 Dynamic Experience Evolution 放在一起对比。前者更适合知识密集型任务，例如问答、搜索和研究；后者更适合逻辑密集、长程规划、多轮交互和 embodied tasks，因为这些任务更依赖可迁移的行为经验。

4.3 Modular Architecture Evolution：记忆、工具和接口也要进化

Agent 与环境交互并不是直接发生的，而是通过一系列模块完成的，例如：

Memory Module；
Tool Module；
Interaction Interface；
Protocol；
Skill Library。

这些模块本身也可以演化。

例如，Memory 不再只是一个向量数据库，而可以是一个能够主动决定保留、遗忘、合并、重写和路由的系统。Tool 也不只是预定义 API，而可以被 Agent 自动创建、组合和维护。Interaction Interface 也可以被设计得更适合模型理解和操作，从而提升 Agent 的稳定性。

这说明 Agent 的能力提升不仅是“模型更强”，也是“系统结构更适合模型发挥”。

4.4 Agentic Topology Evolution：多 Agent 结构自己演化

多 Agent 系统过去常常依赖人工设计角色和流程，例如 planner、executor、critic、reviewer 等。

但在复杂任务中，固定流程未必最优。因此，Agentic Topology Evolution 研究如何让多 Agent 的通信结构、角色分配、团队规模和协作拓扑自动搜索或动态调整。

这类方法的核心问题是：

多 Agent 系统的组织形式，能不能也成为一个可学习、可优化、可进化的对象？

Model-Environment Co-Evolution：未来的关键方向

第三条路线，也是这篇 survey 最强调的未来方向，是Model-Environment Co-Evolution。

前两类方法各有局限：

Model-Centric 方法容易缺乏外部验证，可能出现错误累积、自我强化幻觉和高方差轨迹过估计；
Environment-Centric 方法虽然引入了外部知识和反馈，但很多环境仍然是静态的、单任务的、不可扩展的。

因此，一个更理想的方向是：

不只是模型适应环境，而是环境也随着模型能力变化而变化。

图6：模型-环境共同进化相对于前两类范式的优势

图6总结了 Model-Environment Co-Evolution 的优势：环境可以根据 Agent 能力动态调整难度，按需提供有针对性的反馈，并扩展为多任务、可验证、可持续增长的训练场。

这一路线包含两个核心方向：

5.1 Multi-Agent Policy Co-Evolution

在多 Agent 场景中，环境本身可以由其他 Agent 构成。Agent 之间的协作、竞争、评价和沟通会形成一个动态学习场。

例如，多个 Agent 可以通过 peer evaluation 互相提供反馈，也可以通过多 Agent 强化学习共同优化策略。此时，环境不再是静态背景，而是由其他正在学习的智能体共同组成。

5.2 Environment Training

另一条路线是直接训练或生成环境。

理想环境应该具备几个特征：

能够提供可验证反馈；
能够根据 Agent 能力自动调整难度；
能够生成多样化任务；
能够支持长期、开放式探索。

Reasoning Gym、AgentGym、Agent-World等工作都在朝这个方向发展。

这也是本文的一个重要判断：

未来 Self-Evolving Agents 的核心挑战，不只是训练更强的 Agent，而是设计能够和 Agent 一起成长的环境。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

全链路压测的环境复杂性：网络架构、应用架构与性能影响因素全解析