腾讯与香港科大联手：让AI智能体像人类一样主动探索未知世界-编程阁

这项由腾讯AI实验室与香港科技大学（广州）联合开展的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.18131。有兴趣深入了解技术细节的读者，可以通过该编号在arXiv平台查阅完整原文。

---

一个让人有些不舒服的现实：今天的AI"自我进化"，其实是个假象

先抛出一个问题：你有没有想过，当AI公司宣称他们的智能体（AI Agent，也就是能自主完成任务的AI）具备"自我学习、自我进化"能力时，这究竟意味着什么？

答案可能让你有些失望。绝大多数所谓的"自我进化"AI，其实都像一个必须靠老师发作业才能学习的学生——没有老师布置题目、没有标准答案、没有打分机制，它就什么也学不了。一旦人类工程师撤走了精心设计的"奖励信号"和"任务流程"，这些AI立刻停止进步，就像断电的机器。

研究团队把这个问题说得非常直白：目前的"自我进化"本质上是一种幻觉。智能体并没有真正在自主探索，它们只是在人类预先铺好的轨道上跑步而已。

这和人类的学习方式截然不同。当你搬到一座陌生城市，没有人给你布置"认识城市"的任务，也没有人会在你找到好吃的餐馆后给你打个满分——你只是自然而然地开始逛街、观察、记录，慢慢在脑海里建立起一张城市地图。这种学习完全出于内驱力，不依赖任何外部奖励。

研究团队想要赋予AI同样的能力——他们把这种能力称为"原生主体性"（Native Agency）。简单说，就是让AI在没有任何任务、没有任何奖励的情况下，主动去了解一个陌生环境，把观察到的一切整理成有用的知识，等到真正需要完成任务时，再把这些知识调出来用。

---

一、现有方法的困境：人类总是绕不开的那根拐杖

要理解这项研究的价值，需要先看清楚目前AI进化方式的两条主流路线，以及它们各自的问题所在。

第一条路线可以叫做"经验驱动进化"。这类方法的运作方式，很像传统的学校教育：人类工程师先精心设计一批题目，再设计一套打分标准，AI反复做题、拿分、改进。它积累的"经验"就是这些题目-分数的组合。通过分析这些经验，AI学会如何在特定任务上做得更好。这套方法效果不错，但代价极高——每进入一个新环境，人类就得重新设计一套专属的题目和打分系统。AI表面上在"自我进化"，实质上是在读人类写的教科书。

第二条路线稍微聪明一些，叫做"对抗进化"。这里不需要人类出题，而是让两个AI互相博弈：一个AI（挑战者）专门负责出越来越难的题目，另一个AI（解题者）专门负责解题。通过这种你追我赶的竞争，解题者的能力不断提升。这个方法减少了人类出题的工作量，但它的问题在于：设计这个对抗框架本身就需要大量人工，而且AI始终被困在"做练习题"的循环里，从来没有机会真正走出去自由探索世界。

研究团队把这两种方式和自己的方法做了对比。他们提出的是第三条路线，叫做"元学习驱动进化"（Meta-Learning-Driven Evolution）。在这个框架下，AI会主动进入一个陌生环境，像一个好奇的探险家一样四处观察，然后把所有观察压缩成一份结构化的"世界知识"文档。这份文档就像AI自己画的一张地图，等到具体任务来了，AI就拿着这张地图指路，而不是从头开始盲目探索。

---

二、核心突破：如何在没有老师的情况下，教会AI"探索"这件事本身

这里有一个相当棘手的技术难题。如果AI进化的过程是完全自由、没有任务的，那用什么来判断AI探索得好不好？没有判断标准，就没办法训练。

研究团队的解法非常巧妙，他们称之为"基于结果的奖励机制"（Outcome-Based Reward）。核心思路是：不直接评价AI的探索过程，而是评价探索结果的"实用价值"。

具体来说，评价方式是这样的：让AI先对某个环境进行自由探索，生成一份"世界知识"文档。然后，把这份文档交给另一个AI去完成一批测试任务，看看有了这份文档之后，任务完成率比没有文档时提高了多少。提高得越多，说明这份文档的质量越高，AI的探索就越有价值。

用一个通俗的类比来理解：假设你要评价一名向导的工作质量，不需要全程跟着他观察他怎么收集信息，只需要在他结束考察后，让一批旅行者拿着他写的旅行指南去游览，看看旅行者能顺利完成行程的比例就够了。指南越实用，向导的工作就越出色。

关键在于，这个奖励信号只在训练阶段使用。训练完成后，AI已经内化了"如何有效探索"的能力，在实际使用时完全不需要任何外部奖励或人类指导。

---

三、训练流程：分两步教会AI成为合格的探险家

整个训练过程分为两个阶段，两个阶段相互衔接，共同塑造AI的探索能力。

第一阶段叫做"监督微调"（SFT）。在这个阶段，研究团队请出了目前最强大的AI之一——Gemini-2.5-Pro——作为"教学示范者"。他们让这个顶级AI去探索各种不同的网站，观察它如何制定探索计划、如何决定先看哪些页面、如何把散乱的信息整理成结构化文档。这些示范过程被完整记录下来，形成高质量的训练数据。

在筛选训练数据时，研究团队引入了前面提到的"实用价值"评分机制：让Gemini-2.5-Pro对每个网站生成三份不同的世界知识文档，然后分别测试这三份文档对实际任务的帮助程度，选出表现最好的那一份作为训练样本。实验数据显示，Gemini生成的优质世界知识，平均能让基础AI模型的任务完成率提高10.72个百分点，充分证明了这些训练数据的含金量。

这些训练样本的体量相当惊人：平均每份探索记录长达374.8步，每步包含的信息量平均高达3322.4个词语单位，涵盖了大量网页观察和操作动作。通过这批数据的训练，基础模型获得了初步的探索本能。

第二阶段叫做"强化拒绝采样"（RFT）。经过第一阶段训练的模型，已经具备了基本的探索能力，但仍有提升空间。在第二阶段，模型不再模仿老师，而是开始自己练习：对同一个环境独立生成多份世界知识文档，用实用价值评分筛选出最好的，再用这些高质量的自产数据继续训练自己。这个过程重复两轮。

研究团队没有采用更常见的强化学习算法（如GRPO），原因是这类方法在当前场景下计算代价过于高昂——探索一个环境需要数百步，每步都需要巨大内存，而且每次评估奖励都需要运行完整的下游任务测试，训练周期内根本无法实时完成。拒绝采样的方式把生成过程和训练过程分开，大幅降低了计算压力。

研究团队用来训练的数据集包括600道深度搜索问题，覆盖20个不同领域的网站，为模型提供了足够多样的探索经验。

---

四、实验结果：数字背后的真实突破

研究团队选择了两个业内公认的网页操作基准测试来验证效果，分别是WebVoyager和WebWalker。前者测试AI在具体网站上的信息查找能力，后者覆盖会议、游戏、组织、教育四个不同领域的网站。为了确保测试的严谨性，他们还专门过滤掉了那些AI可以直接用"背诵"的内置知识回答的问题，只保留真正需要在线探索才能解答的问题，最终形成了包含1427道题目的评估集。

结果出乎意料地令人振奋。以Qwen3-30B这个基础模型为例：在完全没有世界知识的情况下，它在WebWalker上的平均正确率只有22.04%；而经过完整训练（SFT+RFT两个阶段）后，同一个模型生成的世界知识，能把正确率推高到40.91%，提升幅度接近19个百分点。这个数字不仅远超基础水平，甚至超过了用Gemini-2.5-Pro直接生成世界知识的效果（29.85%）——换句话说，经过专门训练的学生，在这项特定任务上超越了它的老师。

另一个有趣的对照是"未经训练的模型直接尝试探索"的结果。研究团队把同样的探索指令给了未经训练的基础模型，让它照葫芦画瓢去生成世界知识。结果反而比完全不探索还要糟糕——在WebWalker上的正确率只有19.50%，比不用世界知识的22.04%还低。这说明探索本身是一项需要专门训练的能力：没有经过正确训练的AI，生成的不是有用的地图，而是一堆把人带偏的错误信息。

除了正确率，研究团队还测量了AI完成任务所需的步骤数。数据显示，有了世界知识，AI完成任务的平均步骤减少了约17%。这相当于你去一座陌生城市办事，有了一份详细地图之后，不需要再漫无目的地绕路，直奔目标就好。

---

五、更惊人的发现：知识可以"移植"，小模型秒杀大模型

研究中最让人意外的结论，来自一个关于"知识可移植性"的实验。

研究团队想验证一件事：AI生成的世界知识，是否只对生成它的AI自己有用，还是可以拿来给其他AI用？为此，他们把用Seed-OSS-36B或Qwen3-30B生成的世界知识，分别交给了Qwen3-14B、GPT-OSS-120B、Kimi-K2-Turbo和Gemini-2.5-Flash这四个完全不同的模型。

结论令人信服：世界知识确实具有强烈的通用性。Seed-36B生成的知识，能让Qwen3-14B的平均准确率在两个测试领域内分别提升18.3%；给Kimi-K2-Turbo使用，正确率更是提升了21%。

更戏剧性的是一个具体对比：Qwen3-14B是一个相对小巧的模型，参数量只有140亿；而Gemini-2.5-Flash则是谷歌推出的旗舰模型之一，在大多数任务上能力更强。但在获得了世界知识的加持之后，14B的Qwen3在会议领域网站上取得了35.6%的正确率，而没有世界知识辅助的Gemini-2.5-Flash只达到了31.3%；在游戏领域，前者30.5%，后者25.7%。一个"小个子"凭借更精准的环境认知，在特定任务上超过了参数量更大的"大块头"。

类似的现象在其他模型对比中也出现了：装备了移植来的世界知识之后，Kimi-K2-Turbo和Gemini-2.5-Flash甚至能超越它们各自未加辅助的"上级版本"Kimi-K2.5和Gemini-2.5-Pro。

这个发现指向一个很有冲击力的结论：在特定环境下完成任务时，"知道这个环境的详细信息"比"模型本身有多大"更重要。蛮力堆参数，有时不如一份好地图。

---

六、消融实验与敏感性分析：训练每一步都有意义，知识长度有甜蜜点

研究团队还做了两组细节实验，验证训练流程的设计合理性。

第一组实验追踪了模型在不同训练阶段的表现变化：从未训练的基础状态，到经过第一阶段监督微调之后，再到第一轮强化拒绝采样之后，最后到第二轮强化拒绝采样之后。实验覆盖了会议、游戏、组织、教育四个领域，使用了Qwen3-30B和Seed-OSS-36B两个骨干模型。

结果显示，模型性能随训练推进呈现出清晰的上升趋势。第一阶段监督微调带来了最显著的跳跃，第一轮强化采样继续推动了较大幅度的提升，而第二轮强化采样的边际效益相对有限，有时甚至出现轻微波动。这说明扎实的基础训练（SFT和第一轮RFT）是整个框架效果的核心基础。

第二组实验专门研究世界知识的"最佳长度"问题。研究团队固定使用Qwen3-30B，测试了五种不同长度的世界知识：不用世界知识（0词）、4000-8000词、8000-16000词、16000-32000词、32000-64000词，分别在会议类和游戏类网站上评估效果。

规律非常清晰：从短到中等长度，正确率的提升非常显著。以游戏网站为例，从4000-8000词的30.74%跳升到8000-16000词的39.71%，涨幅将近9个百分点。但继续拉长之后，收益开始递减——从16000-32000词的41.56%到32000-64000词，正确率反而略微下滑到40.72%。

原因并不难理解：太短的世界知识无法涵盖关键信息，等于地图上少画了几条重要的路；太长的世界知识则引入了大量冗余内容，反而让AI在执行任务时分心，把注意力浪费在不相关的信息上。最优区间大约在8000-32000词之间，这是信息密度与信息噪声之间的甜蜜平衡点。

---

七、实际案例：一道真实问题，两种截然不同的解题旅程

为了让抽象的结论变得具体，研究团队展示了一个生动的对比案例，问题来自ACL 2024学术会议的官方网站：

"ACL 2024会议中，印刷服务的注册截止日期与主会场地点更新公告之间，相差几天？"

没有世界知识的AI，从网站首页开始漫无目的地浏览。第四步才找到印刷服务的截止日期（2024年8月9日）。然而，找到场地更新公告的日期却遇到了麻烦——AI无法定位到那个具体页面，于是采用了一个危险的做法：根据历史规律推断，"ACL会议的场地公告通常在注册截止日前3到6个月发出"，由此估算出一个2024年2月1日的假设日期，最终算出190天——错误答案。整个过程走了7步。

有了世界知识的AI，在第一步就从文档里读到了相关信息：印刷服务截止日期是2024年8月9日，场地页面确实有记录，但场地更新公告的具体日期没有在文档中出现。AI判断需要去具体页面查找，直奔相关链接。第二步就找到了场地更新公告的日期（2024年5月5日），计算出正确答案96天。整个过程只用了2步。

两种结果，同一台AI，唯一的区别是有没有那份预先准备好的世界知识地图。

---

结语：参数大小不再是唯一答案

说到底，这项研究提出的核心问题非常简单：我们是否一直在用错误的方式衡量AI的能力？

长期以来，AI领域几乎有一个不成文的共识——模型越大，参数越多，能力就越强。但这项研究用清晰的实验数据说明，至少在"完成特定环境下的具体任务"这件事上，"对环境了解多少"远比"模型有多大"更重要。

更深层的意义在于，研究团队展示了一种训练思路的转变：不是教AI如何完成某类特定任务，而是教AI如何学习如何去学习。这个能力一旦内化，AI就可以自主应对任何新环境，不需要人类为每个环境单独设计训练方案。

当然，这项研究目前的验证范围主要集中在网页浏览这一类任务上，世界知识的生成仍然需要相当多的计算资源，训练数据的覆盖范围和多样性也有进一步扩展的空间。但这些都是工程层面的挑战，核心方向已经得到了充分验证。

如果你对AI学习机制、智能体设计或者AI与人类学习方式的异同感兴趣，完整的研究内容可以通过arXiv编号2604.18131找到原文，研究团队也同步开放了代码、模型和数据，供感兴趣的读者进一步探索。

---

Q&A

Q1：什么是"世界知识"，AI生成的世界知识和人类写的说明文档有什么区别？

A：在这项研究中，"世界知识"是AI自主探索某个网站之后生成的一份结构化Markdown文档，包含该网站各个页面的内容摘要、链接结构和关键信息。与人工撰写的说明文档不同，它是AI通过实际抓取和阅读页面内容后自动提炼的，不依赖人工干预，且专门针对该网站的具体内容，而非通用知识。

Q2：基于结果的奖励机制在训练结束后还会继续使用吗？

A：不会。这个奖励机制仅在训练阶段使用，作为"元学习信号"教会模型如何有效探索和整理信息。训练完成后，模型已经将这种能力内化为参数，在实际使用时完全不需要任何奖励信号或外部反馈，直接自主生成世界知识即可。

Q3：WebWalker和WebVoyager测试中小模型超过大模型的结论，在其他类型任务上也适用吗？

A：目前的实验结果仅针对网页信息检索类任务进行了验证。研究团队也指出，这一结论的核心前提是"任务所需的关键信息已被世界知识文档充分覆盖"。对于需要复杂推理、创意生成或跨领域综合判断的任务，模型本身的参数规模仍然是重要因素，世界知识带来的增益幅度可能会有所不同。

腾讯与香港科大联手：让AI智能体像人类一样主动探索未知世界

从明文到加密：手把手教你用命令行sftp安全传输文件（附FileZilla SFTP配置）

Spring Boot自动配置原理探秘

如何免费在线生成高质量法线贴图？5分钟快速上手指南

CLI-Gym：基于环境反转技术的命令行自动化测试框架

别再只会调库了！手把手教你用Arduino的PWM引脚，让循迹小车转弯丝滑又精准

用51单片机驱动你的第一个小风扇（直流电机）和旋转时钟（步进电机）