近期,厦门大学、香港理工大学、马里兰大学、华盛顿大学圣路易斯分校、UIUC、新加坡管理大学等多机构联合发布了一篇关于Self-Evolving Agents(自进化智能体)的系统性综述:
A Systematic Survey of Self-Evolving Agents: From Model-Centric to Environment-Driven Co-Evolution
当 LLM Agent 不再只是被人类标注数据训练出来,而是能够主动探索、获得反馈、更新策略、积累经验时,我们应该如何理解它的“自进化”?
图1:Self-Evolving Agents 代表性工作发展趋势
从2022年到2026年,围绕 Agent 的研究快速从以模型自身能力增强为中心,逐步走向通过环境交互获取反馈、积累经验,并进一步发展为模型与环境相互驱动、共同进化的新范式。一条越来越清晰的技术主线正在形成:
Agent 的能力边界不只取决于模型参数,也取决于它如何与环境交互,并从交互中持续获得可用的学习信号。
- 为什么需要 Self-Evolving Agents?
传统 Agent 系统大多依赖一个“两阶段范式”:
- Pre-Training:通过大规模语料学习通用世界知识;
- Post-Training:通过 SFT、RLHF、RLAIF 或任务数据,让模型学习特定的 Agentic 能力。
这个范式已经极大推动了 LLM Agent 的发展,但它也有一个越来越明显的瓶颈:
Agent 越复杂,对高质量监督信号的依赖就越强;而高质量人类标注、人工奖励和专家反馈很难无限扩展。
对于简单问答任务,人类可以直接写答案;对于复杂 Agent任务,人类不仅要判断最终答案,还要理解多步规划、工具调用、环境反馈、错误恢复和长期状态变化。监督成本急剧上升。
Self-Evolving Agents 应用
更关键的是,如果 Agent 永远依赖人类提供学习信号,那么它的能力上限很容易被人类经验、标注规模和预定义任务边界限制住。
因此,Self-Evolving Agents 的核心动机是:
让 Agent 从被动接受人类监督,转向主动构造问题、探索环境、生成反馈、修正策略,并在闭环中持续提升。
这篇 survey 将 Self-Evolving Agents 概括为两个核心特征:
- Strong autonomy with minimal human supervision:尽量减少对外部人工监督的依赖;
- Active exploration through interaction:通过内部推理或外部环境交互主动探索和改进。
换句话说,自进化 Agent 不再只是一个“被训练好的模型”,而更像是一个可以参与自身成长过程的系统。
- 统一分类:三条自进化路线
这篇 survey 最重要的贡献,是提出了一个统一 taxonomy,将 Self-Evolving Agents 划分为三大范式:
- Model-Centric Self-Evolution:模型中心自进化;
- Environment-Centric Self-Evolution:环境中心自进化;
- Model-Environment Co-Evolution:模型-环境共同进化。
图2:Self-Evolving Agents 统一分类框架
图2给出了全文的核心分类框架。这个框架的关键之处在于,它不是简单按照任务类型或技术模块划分,而是按照“进化发生在哪里”来组织整个领域:
- 如果进化主要发生在模型内部,就是 Model-Centric;
- 如果进化来自模型对外部知识、经验、工具和结构的利用,就是 Environment-Centric;
- 如果模型和环境都在持续变化,并互相推动对方变强,就是 Model-Environment Co-Evolution。
这一视角的重要性在于,它将原本分散的研究方向统一到一个递进式框架中:
从模型内部计算与参数更新驱动的能力增强,到环境交互与反馈驱动的经验积累,再到模型与环境相互适应、共同演化。
图3:Self-Evolving Agents 技术谱系总览
图3进一步展开了 Self-Evolving Agents 的完整技术分类,将不同演化路径下的方法系统组织起来,展示了该领域从内部能力增强、外部环境交互,到模型-环境共同演化的整体技术版图。它基本可以作为理解当前 Self-Evolving Agents 研究格局的一张技术地图。
- Model-Centric Self-Evolution:模型先自己变强
第一条路线是Model-Centric Self-Evolution。
这类方法的基本假设是:模型内部已经包含大量潜在能力,只是没有被充分激发。因此,自进化首先可以从模型自身出发,通过更多推理计算、更好的搜索策略,或者自生成训练数据来提升能力。
这一路线可以进一步分成两类:
3.1 Inference-Based Evolution:推理时自进化
这类方法不更新模型参数,而是在单次推理过程中投入更多计算资源,让模型“想得更充分”。代表方向包括:
- Parallel Sampling:并行采样多条推理路径,再通过投票、排序或一致性判断选择答案;
- Sequential Self-Correction:生成、反思、修正,形成多轮自我纠错;
- Structured Reasoning:将推理过程组织成树、图等结构。
它的本质是:
用更多 test-time compute 换取更可靠的单次输出。
但问题也很明显:这种改进通常是临时的。推理结束后,模型参数没有变化,能力不会被真正内化。
3.2 Training-Based Evolution:训练时自进化
相比之下,Training-Based Evolution 追求长期能力提升。模型会生成数据、筛选数据、评估数据,并通过 SFT 或 RL 将新能力写回参数。
这篇 survey 将其分为两条路线:
- Synthesis-Driven Offline Self-Evolving:离线生成合成数据,再用于训练;
- Exploration-Driven Online Self-Evolving:在线探索、实时反馈、持续更新策略。
图4:离线合成驱动进化与在线探索驱动进化对比
图4很好地展示了二者差异。离线合成方法更像“模型给自己出教材”,可以高效启动,但容易受限于初始模型能力;在线探索方法则更像“模型不断在探索中试错”,能够发现新的策略,但对反馈质量、训练稳定性和探索效率要求更高。
这也是为什么近年来 R-Zero、Absolute Zero、Agent0等工作受到关注:它们不满足于让模型复述已有知识,而是尝试让模型通过自博弈、环境反馈或任务探索获得新的训练信号。
- Environment-Centric Self-Evolution:环境成为能力来源
第二条路线是Environment-Centric Self-Evolution。
如果说 Model-Centric 方法主要关注模型内部如何变强,那么 Environment-Centric 方法强调:
Agent 的进化不只来自参数更新,也来自它如何利用外部知识、经验、工具、记忆和多 Agent 结构。
这篇 survey 将环境中心自进化分为四个方向:
- Static Knowledge Evolution:静态知识演化;
- Dynamic Experience Evolution:动态经验演化;
- Modular Architecture Evolution:模块架构演化;
- Agentic Topology Evolution:Agent 拓扑演化。
4.1 Static Knowledge Evolution:从回答问题到主动找知识
传统 RAG 通常是“用户问问题,系统检索相关文档”。但 Agentic RAG 和 Deep Research 更进一步:Agent 会判断自己缺什么知识,主动生成查询、浏览网页、收集证据、整合推理,并最终生成结构化报告。
这意味着检索不再只是一个前置模块,而成为 Agent 推理链条中的主动认知行为。
4.2 Dynamic Experience Evolution:从知识到经验
知识解决的是 “what is”,经验解决的是 “how to do”。
很多 Agent 任务不是缺知识,而是缺经验:
- 哪种工具调用顺序更稳定?
- 哪类错误应该如何恢复?
- 哪些历史失败能指导当前决策?
- 哪些 workflow 可以复用到新任务?
因此,Dynamic Experience Evolution 关注如何从历史轨迹、成功案例、失败反馈和执行日志中提炼可复用经验。
图5:静态知识演化与动态经验演化对比
图5将 Static Knowledge Evolution 和 Dynamic Experience Evolution 放在一起对比。前者更适合知识密集型任务,例如问答、搜索和研究;后者更适合逻辑密集、长程规划、多轮交互和 embodied tasks,因为这些任务更依赖可迁移的行为经验。
4.3 Modular Architecture Evolution:记忆、工具和接口也要进化
Agent 与环境交互并不是直接发生的,而是通过一系列模块完成的,例如:
- Memory Module;
- Tool Module;
- Interaction Interface;
- Protocol;
- Skill Library。
这些模块本身也可以演化。
例如,Memory 不再只是一个向量数据库,而可以是一个能够主动决定保留、遗忘、合并、重写和路由的系统。Tool 也不只是预定义 API,而可以被 Agent 自动创建、组合和维护。Interaction Interface 也可以被设计得更适合模型理解和操作,从而提升 Agent 的稳定性。
这说明 Agent 的能力提升不仅是“模型更强”,也是“系统结构更适合模型发挥”。
4.4 Agentic Topology Evolution:多 Agent 结构自己演化
多 Agent 系统过去常常依赖人工设计角色和流程,例如 planner、executor、critic、reviewer 等。
但在复杂任务中,固定流程未必最优。因此,Agentic Topology Evolution 研究如何让多 Agent 的通信结构、角色分配、团队规模和协作拓扑自动搜索或动态调整。
这类方法的核心问题是:
多 Agent 系统的组织形式,能不能也成为一个可学习、可优化、可进化的对象?
- Model-Environment Co-Evolution:未来的关键方向
第三条路线,也是这篇 survey 最强调的未来方向,是Model-Environment Co-Evolution。
前两类方法各有局限:
- Model-Centric 方法容易缺乏外部验证,可能出现错误累积、自我强化幻觉和高方差轨迹过估计;
- Environment-Centric 方法虽然引入了外部知识和反馈,但很多环境仍然是静态的、单任务的、不可扩展的。
因此,一个更理想的方向是:
不只是模型适应环境,而是环境也随着模型能力变化而变化。
图6:模型-环境共同进化相对于前两类范式的优势
图6总结了 Model-Environment Co-Evolution 的优势:环境可以根据 Agent 能力动态调整难度,按需提供有针对性的反馈,并扩展为多任务、可验证、可持续增长的训练场。
这一路线包含两个核心方向:
5.1 Multi-Agent Policy Co-Evolution
在多 Agent 场景中,环境本身可以由其他 Agent 构成。Agent 之间的协作、竞争、评价和沟通会形成一个动态学习场。
例如,多个 Agent 可以通过 peer evaluation 互相提供反馈,也可以通过多 Agent 强化学习共同优化策略。此时,环境不再是静态背景,而是由其他正在学习的智能体共同组成。
5.2 Environment Training
另一条路线是直接训练或生成环境。
理想环境应该具备几个特征:
- 能够提供可验证反馈;
- 能够根据 Agent 能力自动调整难度;
- 能够生成多样化任务;
- 能够支持长期、开放式探索。
Reasoning Gym、AgentGym、Agent-World等工作都在朝这个方向发展。
这也是本文的一个重要判断:
未来 Self-Evolving Agents 的核心挑战,不只是训练更强的 Agent,而是设计能够和 Agent 一起成长的环境。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~