news 2026/4/29 5:50:34

腾讯与香港科大联手:让AI智能体像人类一样主动探索未知世界

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
腾讯与香港科大联手:让AI智能体像人类一样主动探索未知世界

这项由腾讯AI实验室与香港科技大学(广州)联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.18131。有兴趣深入了解技术细节的读者,可以通过该编号在arXiv平台查阅完整原文。

---

一个让人有些不舒服的现实:今天的AI"自我进化",其实是个假象

先抛出一个问题:你有没有想过,当AI公司宣称他们的智能体(AI Agent,也就是能自主完成任务的AI)具备"自我学习、自我进化"能力时,这究竟意味着什么?

答案可能让你有些失望。绝大多数所谓的"自我进化"AI,其实都像一个必须靠老师发作业才能学习的学生——没有老师布置题目、没有标准答案、没有打分机制,它就什么也学不了。一旦人类工程师撤走了精心设计的"奖励信号"和"任务流程",这些AI立刻停止进步,就像断电的机器。

研究团队把这个问题说得非常直白:目前的"自我进化"本质上是一种幻觉。智能体并没有真正在自主探索,它们只是在人类预先铺好的轨道上跑步而已。

这和人类的学习方式截然不同。当你搬到一座陌生城市,没有人给你布置"认识城市"的任务,也没有人会在你找到好吃的餐馆后给你打个满分——你只是自然而然地开始逛街、观察、记录,慢慢在脑海里建立起一张城市地图。这种学习完全出于内驱力,不依赖任何外部奖励。

研究团队想要赋予AI同样的能力——他们把这种能力称为"原生主体性"(Native Agency)。简单说,就是让AI在没有任何任务、没有任何奖励的情况下,主动去了解一个陌生环境,把观察到的一切整理成有用的知识,等到真正需要完成任务时,再把这些知识调出来用。

---

一、现有方法的困境:人类总是绕不开的那根拐杖

要理解这项研究的价值,需要先看清楚目前AI进化方式的两条主流路线,以及它们各自的问题所在。

第一条路线可以叫做"经验驱动进化"。这类方法的运作方式,很像传统的学校教育:人类工程师先精心设计一批题目,再设计一套打分标准,AI反复做题、拿分、改进。它积累的"经验"就是这些题目-分数的组合。通过分析这些经验,AI学会如何在特定任务上做得更好。这套方法效果不错,但代价极高——每进入一个新环境,人类就得重新设计一套专属的题目和打分系统。AI表面上在"自我进化",实质上是在读人类写的教科书。

第二条路线稍微聪明一些,叫做"对抗进化"。这里不需要人类出题,而是让两个AI互相博弈:一个AI(挑战者)专门负责出越来越难的题目,另一个AI(解题者)专门负责解题。通过这种你追我赶的竞争,解题者的能力不断提升。这个方法减少了人类出题的工作量,但它的问题在于:设计这个对抗框架本身就需要大量人工,而且AI始终被困在"做练习题"的循环里,从来没有机会真正走出去自由探索世界。

研究团队把这两种方式和自己的方法做了对比。他们提出的是第三条路线,叫做"元学习驱动进化"(Meta-Learning-Driven Evolution)。在这个框架下,AI会主动进入一个陌生环境,像一个好奇的探险家一样四处观察,然后把所有观察压缩成一份结构化的"世界知识"文档。这份文档就像AI自己画的一张地图,等到具体任务来了,AI就拿着这张地图指路,而不是从头开始盲目探索。

---

二、核心突破:如何在没有老师的情况下,教会AI"探索"这件事本身

这里有一个相当棘手的技术难题。如果AI进化的过程是完全自由、没有任务的,那用什么来判断AI探索得好不好?没有判断标准,就没办法训练。

研究团队的解法非常巧妙,他们称之为"基于结果的奖励机制"(Outcome-Based Reward)。核心思路是:不直接评价AI的探索过程,而是评价探索结果的"实用价值"。

具体来说,评价方式是这样的:让AI先对某个环境进行自由探索,生成一份"世界知识"文档。然后,把这份文档交给另一个AI去完成一批测试任务,看看有了这份文档之后,任务完成率比没有文档时提高了多少。提高得越多,说明这份文档的质量越高,AI的探索就越有价值。

用一个通俗的类比来理解:假设你要评价一名向导的工作质量,不需要全程跟着他观察他怎么收集信息,只需要在他结束考察后,让一批旅行者拿着他写的旅行指南去游览,看看旅行者能顺利完成行程的比例就够了。指南越实用,向导的工作就越出色。

关键在于,这个奖励信号只在训练阶段使用。训练完成后,AI已经内化了"如何有效探索"的能力,在实际使用时完全不需要任何外部奖励或人类指导。

---

三、训练流程:分两步教会AI成为合格的探险家

整个训练过程分为两个阶段,两个阶段相互衔接,共同塑造AI的探索能力。

第一阶段叫做"监督微调"(SFT)。在这个阶段,研究团队请出了目前最强大的AI之一——Gemini-2.5-Pro——作为"教学示范者"。他们让这个顶级AI去探索各种不同的网站,观察它如何制定探索计划、如何决定先看哪些页面、如何把散乱的信息整理成结构化文档。这些示范过程被完整记录下来,形成高质量的训练数据。

在筛选训练数据时,研究团队引入了前面提到的"实用价值"评分机制:让Gemini-2.5-Pro对每个网站生成三份不同的世界知识文档,然后分别测试这三份文档对实际任务的帮助程度,选出表现最好的那一份作为训练样本。实验数据显示,Gemini生成的优质世界知识,平均能让基础AI模型的任务完成率提高10.72个百分点,充分证明了这些训练数据的含金量。

这些训练样本的体量相当惊人:平均每份探索记录长达374.8步,每步包含的信息量平均高达3322.4个词语单位,涵盖了大量网页观察和操作动作。通过这批数据的训练,基础模型获得了初步的探索本能。

第二阶段叫做"强化拒绝采样"(RFT)。经过第一阶段训练的模型,已经具备了基本的探索能力,但仍有提升空间。在第二阶段,模型不再模仿老师,而是开始自己练习:对同一个环境独立生成多份世界知识文档,用实用价值评分筛选出最好的,再用这些高质量的自产数据继续训练自己。这个过程重复两轮。

研究团队没有采用更常见的强化学习算法(如GRPO),原因是这类方法在当前场景下计算代价过于高昂——探索一个环境需要数百步,每步都需要巨大内存,而且每次评估奖励都需要运行完整的下游任务测试,训练周期内根本无法实时完成。拒绝采样的方式把生成过程和训练过程分开,大幅降低了计算压力。

研究团队用来训练的数据集包括600道深度搜索问题,覆盖20个不同领域的网站,为模型提供了足够多样的探索经验。

---

四、实验结果:数字背后的真实突破

研究团队选择了两个业内公认的网页操作基准测试来验证效果,分别是WebVoyager和WebWalker。前者测试AI在具体网站上的信息查找能力,后者覆盖会议、游戏、组织、教育四个不同领域的网站。为了确保测试的严谨性,他们还专门过滤掉了那些AI可以直接用"背诵"的内置知识回答的问题,只保留真正需要在线探索才能解答的问题,最终形成了包含1427道题目的评估集。

结果出乎意料地令人振奋。以Qwen3-30B这个基础模型为例:在完全没有世界知识的情况下,它在WebWalker上的平均正确率只有22.04%;而经过完整训练(SFT+RFT两个阶段)后,同一个模型生成的世界知识,能把正确率推高到40.91%,提升幅度接近19个百分点。这个数字不仅远超基础水平,甚至超过了用Gemini-2.5-Pro直接生成世界知识的效果(29.85%)——换句话说,经过专门训练的学生,在这项特定任务上超越了它的老师。

另一个有趣的对照是"未经训练的模型直接尝试探索"的结果。研究团队把同样的探索指令给了未经训练的基础模型,让它照葫芦画瓢去生成世界知识。结果反而比完全不探索还要糟糕——在WebWalker上的正确率只有19.50%,比不用世界知识的22.04%还低。这说明探索本身是一项需要专门训练的能力:没有经过正确训练的AI,生成的不是有用的地图,而是一堆把人带偏的错误信息。

除了正确率,研究团队还测量了AI完成任务所需的步骤数。数据显示,有了世界知识,AI完成任务的平均步骤减少了约17%。这相当于你去一座陌生城市办事,有了一份详细地图之后,不需要再漫无目的地绕路,直奔目标就好。

---

五、更惊人的发现:知识可以"移植",小模型秒杀大模型

研究中最让人意外的结论,来自一个关于"知识可移植性"的实验。

研究团队想验证一件事:AI生成的世界知识,是否只对生成它的AI自己有用,还是可以拿来给其他AI用?为此,他们把用Seed-OSS-36B或Qwen3-30B生成的世界知识,分别交给了Qwen3-14B、GPT-OSS-120B、Kimi-K2-Turbo和Gemini-2.5-Flash这四个完全不同的模型。

结论令人信服:世界知识确实具有强烈的通用性。Seed-36B生成的知识,能让Qwen3-14B的平均准确率在两个测试领域内分别提升18.3%;给Kimi-K2-Turbo使用,正确率更是提升了21%。

更戏剧性的是一个具体对比:Qwen3-14B是一个相对小巧的模型,参数量只有140亿;而Gemini-2.5-Flash则是谷歌推出的旗舰模型之一,在大多数任务上能力更强。但在获得了世界知识的加持之后,14B的Qwen3在会议领域网站上取得了35.6%的正确率,而没有世界知识辅助的Gemini-2.5-Flash只达到了31.3%;在游戏领域,前者30.5%,后者25.7%。一个"小个子"凭借更精准的环境认知,在特定任务上超过了参数量更大的"大块头"。

类似的现象在其他模型对比中也出现了:装备了移植来的世界知识之后,Kimi-K2-Turbo和Gemini-2.5-Flash甚至能超越它们各自未加辅助的"上级版本"Kimi-K2.5和Gemini-2.5-Pro。

这个发现指向一个很有冲击力的结论:在特定环境下完成任务时,"知道这个环境的详细信息"比"模型本身有多大"更重要。蛮力堆参数,有时不如一份好地图。

---

六、消融实验与敏感性分析:训练每一步都有意义,知识长度有甜蜜点

研究团队还做了两组细节实验,验证训练流程的设计合理性。

第一组实验追踪了模型在不同训练阶段的表现变化:从未训练的基础状态,到经过第一阶段监督微调之后,再到第一轮强化拒绝采样之后,最后到第二轮强化拒绝采样之后。实验覆盖了会议、游戏、组织、教育四个领域,使用了Qwen3-30B和Seed-OSS-36B两个骨干模型。

结果显示,模型性能随训练推进呈现出清晰的上升趋势。第一阶段监督微调带来了最显著的跳跃,第一轮强化采样继续推动了较大幅度的提升,而第二轮强化采样的边际效益相对有限,有时甚至出现轻微波动。这说明扎实的基础训练(SFT和第一轮RFT)是整个框架效果的核心基础。

第二组实验专门研究世界知识的"最佳长度"问题。研究团队固定使用Qwen3-30B,测试了五种不同长度的世界知识:不用世界知识(0词)、4000-8000词、8000-16000词、16000-32000词、32000-64000词,分别在会议类和游戏类网站上评估效果。

规律非常清晰:从短到中等长度,正确率的提升非常显著。以游戏网站为例,从4000-8000词的30.74%跳升到8000-16000词的39.71%,涨幅将近9个百分点。但继续拉长之后,收益开始递减——从16000-32000词的41.56%到32000-64000词,正确率反而略微下滑到40.72%。

原因并不难理解:太短的世界知识无法涵盖关键信息,等于地图上少画了几条重要的路;太长的世界知识则引入了大量冗余内容,反而让AI在执行任务时分心,把注意力浪费在不相关的信息上。最优区间大约在8000-32000词之间,这是信息密度与信息噪声之间的甜蜜平衡点。

---

七、实际案例:一道真实问题,两种截然不同的解题旅程

为了让抽象的结论变得具体,研究团队展示了一个生动的对比案例,问题来自ACL 2024学术会议的官方网站:

"ACL 2024会议中,印刷服务的注册截止日期与主会场地点更新公告之间,相差几天?"

没有世界知识的AI,从网站首页开始漫无目的地浏览。第四步才找到印刷服务的截止日期(2024年8月9日)。然而,找到场地更新公告的日期却遇到了麻烦——AI无法定位到那个具体页面,于是采用了一个危险的做法:根据历史规律推断,"ACL会议的场地公告通常在注册截止日前3到6个月发出",由此估算出一个2024年2月1日的假设日期,最终算出190天——错误答案。整个过程走了7步。

有了世界知识的AI,在第一步就从文档里读到了相关信息:印刷服务截止日期是2024年8月9日,场地页面确实有记录,但场地更新公告的具体日期没有在文档中出现。AI判断需要去具体页面查找,直奔相关链接。第二步就找到了场地更新公告的日期(2024年5月5日),计算出正确答案96天。整个过程只用了2步。

两种结果,同一台AI,唯一的区别是有没有那份预先准备好的世界知识地图。

---

结语:参数大小不再是唯一答案

说到底,这项研究提出的核心问题非常简单:我们是否一直在用错误的方式衡量AI的能力?

长期以来,AI领域几乎有一个不成文的共识——模型越大,参数越多,能力就越强。但这项研究用清晰的实验数据说明,至少在"完成特定环境下的具体任务"这件事上,"对环境了解多少"远比"模型有多大"更重要。

更深层的意义在于,研究团队展示了一种训练思路的转变:不是教AI如何完成某类特定任务,而是教AI如何学习如何去学习。这个能力一旦内化,AI就可以自主应对任何新环境,不需要人类为每个环境单独设计训练方案。

当然,这项研究目前的验证范围主要集中在网页浏览这一类任务上,世界知识的生成仍然需要相当多的计算资源,训练数据的覆盖范围和多样性也有进一步扩展的空间。但这些都是工程层面的挑战,核心方向已经得到了充分验证。

如果你对AI学习机制、智能体设计或者AI与人类学习方式的异同感兴趣,完整的研究内容可以通过arXiv编号2604.18131找到原文,研究团队也同步开放了代码、模型和数据,供感兴趣的读者进一步探索。

---

Q&A

Q1:什么是"世界知识",AI生成的世界知识和人类写的说明文档有什么区别?

A:在这项研究中,"世界知识"是AI自主探索某个网站之后生成的一份结构化Markdown文档,包含该网站各个页面的内容摘要、链接结构和关键信息。与人工撰写的说明文档不同,它是AI通过实际抓取和阅读页面内容后自动提炼的,不依赖人工干预,且专门针对该网站的具体内容,而非通用知识。

Q2:基于结果的奖励机制在训练结束后还会继续使用吗?

A:不会。这个奖励机制仅在训练阶段使用,作为"元学习信号"教会模型如何有效探索和整理信息。训练完成后,模型已经将这种能力内化为参数,在实际使用时完全不需要任何奖励信号或外部反馈,直接自主生成世界知识即可。

Q3:WebWalker和WebVoyager测试中小模型超过大模型的结论,在其他类型任务上也适用吗?

A:目前的实验结果仅针对网页信息检索类任务进行了验证。研究团队也指出,这一结论的核心前提是"任务所需的关键信息已被世界知识文档充分覆盖"。对于需要复杂推理、创意生成或跨领域综合判断的任务,模型本身的参数规模仍然是重要因素,世界知识带来的增益幅度可能会有所不同。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/29 5:48:24

Spring Boot自动配置原理探秘

Spring Boot自动配置原理探秘 在Java开发领域,Spring Boot凭借其"约定优于配置"的理念,大幅简化了Spring应用的初始搭建和开发过程。其核心特性之一——自动配置(Auto-Configuration),能够根据项目依赖和环…

作者头像 李华
网站建设 2026/4/29 5:46:22

如何免费在线生成高质量法线贴图?5分钟快速上手指南

如何免费在线生成高质量法线贴图?5分钟快速上手指南 【免费下载链接】NormalMap-Online NormalMap Generator Online 项目地址: https://gitcode.com/gh_mirrors/no/NormalMap-Online 想要为你的3D模型添加逼真表面细节,却不想学习复杂的建模软件…

作者头像 李华
网站建设 2026/4/29 5:43:53

CLI-Gym:基于环境反转技术的命令行自动化测试框架

1. 项目概述CLI-Gym是一个创新的命令行界面(CLI)任务生成框架,它采用代理环境反转技术来解决传统CLI自动化测试中的关键痛点。这个项目最吸引我的地方在于它巧妙地将强化学习中的环境建模思想逆向应用到了CLI任务生成领域。在传统开发流程中,我们经常遇到…

作者头像 李华