news 2026/5/16 8:11:11

7B 模型拿到 97.5% 成功率:Agent 终于学会自己选技能、用技能、造新技能了!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
7B 模型拿到 97.5% 成功率:Agent 终于学会自己选技能、用技能、造新技能了!

导读

一个 7B 参数的 Agent,在 ALFWorld 上跑出了 97.5% 的平均成功率,超过此前最强基线 2.6 个百分点。关键在于:它的技能库从零开始,由 Agent 自己检索、使用、蒸馏生成——整个过程只靠一个任务结果信号驱动。这篇来自中科大、美团、新加坡国立等团队的论文 Skill1,正在重新定义 Agent 和技能库之间的关系。

Agent 的"错题本"问题

过去一年,给 Agent 加技能库已经成了标配操作。ReAct、Reflexion 让 Agent 学会推理和反思,ExpeL、RetroAgent 让 Agent 把成功经验写进外部记忆。

但一个被反复忽视的问题是:检索技能的模块不知道执行效果,蒸馏技能的模块不知道检索偏好,三个环节各优化各的,奖励信号互相打架。

论文原话讲得很到位:

“Existing methods optimize these capabilities in isolation or with separate reward sources, resulting in partial and conflicting evolution.”

「既有方法孤立地优化这些能力,或用不同的奖励来源,导致局部且冲突的演化。」

打个比方:一个学生做完数学题后写了错题本,但查错题本的流程、用错题本的流程、整理新错题的流程是三套互不沟通的系统。查的时候不知道上次用了有没有效果,整理的时候不知道哪些题型最该记。时间一长,错题本越写越厚,但考试成绩纹丝不动。

▲ Skill1 论文 arXiv 页面,标题直接点明"统一演化"

Skill1 的做法:一个 policy 管全程

Skill1 的核心思路:让同一个 policy 走完技能的全生命周期——从选择到使用到蒸馏,所有学习信号只来自最终任务结果。

具体流程拆开看:

**第一步,选技能。**Policy 针对当前任务生成一条自然语言 query,去技能库里做向量检索(用的是冻结的 all-MiniLM-L6-v2 编码器),拉回一批候选。然后 policy 自己对这些候选做重排序,选出最相关的那条技能。

**第二步,用技能。**选定技能后,policy 在该技能的条件下和环境交互,完成任务。技能在这里扮演的角色类似于一份策略提示——告诉 Agent 面对这类场景该怎么行动。

**第三步,造新技能。**任务结束后,policy 从整条交互轨迹里提取出两样东西:一个可复用的策略描述(reusable strategy),一个场景标签(scenario description)。只有成功的轨迹才会被写入技能库。

论文方法部分的原话:

“The policy generates a query to search the skill library, re-ranks candidates to select one, solves the task conditioned on it, and distills a new skill from the trajectory.”

「policy 生成 query 检索技能库,重排候选选出技能,在该技能条件下解决任务,再从轨迹中蒸馏新技能。」

▲ DailyPapers 推文:训练同一个 policy,同时选择、使用、蒸馏技能

一个奖励信号,怎么驱动三件事?

整个框架里最精巧的设计在奖励分配上。

传统做法会给选择、使用、蒸馏各发一套奖励信号,结果三套信号互相矛盾,policy 左右为难。Skill1 只用一个终端任务结果 r(τ),但从中拆出两个维度:

低频趋势(low-frequency trend):用移动平均追踪某条技能被反复选用后的长期效果。如果一条技能持续带来好结果,说明它本身有价值,选择环节应该继续偏好它。这个信号驱动selection的学习。

高频变化(high-frequency variation):看当前这次结果相对于长期趋势的偏差。如果某次使用了新蒸馏出的技能后,结果大幅超出移动平均,说明这条新技能带来了突破性的提升。这个信号驱动distillation的学习。

utilization最直接——任务做成了就是正反馈,做砸了就是负反馈。

这套设计的好处在于:三个环节的梯度全部指向同一个目标——提高任务完成率。选择器学会找真正有用的技能,执行器学会把技能用好,蒸馏器学会生产下一轮能被用上的高质量技能。

97.5%:技能库确实在起作用

说了这么多机制,结果怎么样?

在 ALFWorld(一个包含 6 类家务任务的模拟环境)上,Skill1 跑出97.5% 的平均成功率,比此前最强的 RetroAgent 高出 2.6 个百分点,在 6 类任务中有 5 类排名第一。

在 WebShop(模拟电商购物的环境)上,Skill1 的分数达到 89.7,成功率 82.9,同样领跑。

但更值得关注的数据来自消融实验:

变体ALFWorld 成功率
完整 Skill197.5%
去掉整个技能库80.9%
去掉选择模块91.8%
去掉蒸馏模块92.4%

**去掉技能库,成功率直接掉了近 17 个百分点。**这组数据说明技能库对最终效果的贡献是实打实的,选择和蒸馏每一环都在发挥作用。

▲ Hugging Face Papers 社区页面,Skill1 登上当日论文榜第二名

几个需要冷静看的地方

在为 97.5% 的数字兴奋之前,有几个细节需要留意:

**第一,实验环境是受控模拟。**ALFWorld 和 WebShop 都是标准化 benchmark,任务模式相对固定。把这个结果直接外推到真实生产环境里的复杂 Agent,还需要更多验证。

**第二,代码仓库暂时无法访问。**论文声称代码在 GitHub 上开源(AlphaLab-USTC/Skill1),但采集时仓库页面返回 404。具体实现细节和复现情况,还需要等仓库上线后确认。

**第三,技能库有容量上限。**论文设定技能库最大容量为 5000 条。当 Agent 面对的任务类型持续扩展,技能库的检索效率和淘汰策略是否能跟上,论文没有深入讨论。

▲ ArxivLens 第三方研究解读页面

从"调用工具"到"管理技能生命周期"

把 Skill1 放到 Agent 研究的大脉络里看,它代表的趋势很明确:Agent 正在从"被动调用外部工具"走向"主动管理自己的技能生命周期"。

过去的 Agent 框架里,工具是静态的——你给它一把锤子,它就只能锤钉子。技能库比工具进了一步,Agent 可以积累经验。但传统技能库的检索、使用、更新三个环节各跑各的,本质上还是拼凑式架构。

Skill1 提出的方向是:**让 Agent 对技能库有完整的控制权——知道该找什么技能,知道怎么用这个技能,做完之后还能把经验提炼成新的技能反哺回技能库。**整个循环由同一个 policy 驱动,由同一个结果信号校准。

论文摘要里有个说法值得记住:

“A persistent skill library allows language model agents to reuse successful strategies across tasks.”

「持久技能库让语言模型 Agent 能跨任务复用成功策略。」

在 Hugging Face 社区的讨论里,这篇论文被放在 skill bank、agentic RL、self-improving agents 这几条研究线上讨论——它的邻居包括 Dynamic Dual-Granularity Skill Bank、ARISE、Co-Evolution of Policy and Internal Reward 等工作。这个方向的共识越来越清晰:Agent 的下一步进化,重点在于让经验可积累、可检索、可迭代。

Skill1 用一个 7B 模型和一个统一的 RL 框架,在这个方向上迈出了相当扎实的一步。至于这套方法能否从模拟环境走到真实世界的复杂任务,还需要后续工作来回答。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/16 8:05:17

iOS 17-26越狱完整指南:安全解锁iPhone隐藏功能的终极教程

iOS 17-26越狱完整指南:安全解锁iPhone隐藏功能的终极教程 【免费下载链接】Jailbreak iOS 26.4 - 26, 17 - 17.7.5 & iOS 18 - 18.7.3 Jailbreak Tools, Cydia/Sileo/Zebra Tweaks & Jailbreak News Updates || AI Jailbreak Finder 👇 项目地…

作者头像 李华
网站建设 2026/5/16 8:04:07

从零构建生产级K8s集群:架构设计、自动化部署与安全运维实战

1. 项目概述:一个基于Kubernetes的现代化集群实践最近几年,容器化和云原生技术已经从大厂的“奢侈品”变成了中小团队甚至个人开发者的“必需品”。我身边不少朋友和同事,从最初的“用Docker跑个测试环境”,逐渐过渡到“得搞个K8s…

作者头像 李华
网站建设 2026/5/16 8:00:20

基于Python的OpenAI智能体开发框架:从原理到实战应用

1. 项目概述:一个基于Python的智能体开发框架最近在GitHub上看到一个挺有意思的项目,叫ghost146767/openai-agents-python。光看名字,你大概能猜到它和OpenAI的API以及“智能体”这个概念有关。没错,这是一个用Python构建的、旨在…

作者头像 李华