news 2026/5/15 6:08:06

【清华SRA】Skill Retrieval Augmentation for Agentic AI

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【清华SRA】Skill Retrieval Augmentation for Agentic AI

目录

  • Background
  • Method
    • Problem Formulation
    • Benchmark Construction
  • Experiments
    • Study Design
    • Experimental Setup
    • Systematic Empirical Study
  • Current Limitation

Background

  1. 为什么需要skills?

    传统大模型逐渐转向Agentic AI,从被动的文本生成器转变为能主动推理、规划、调用工具的problem solver。模型本身的参数化知识难以支撑解决更复杂、宽泛的问题,因此需要引入外部的可复用的能力,即skills。

  2. 现有的引入skill的范式存在什么问题?

    现有方法多采用“explicit in-context skill injection”,通过prompt列举可用的skills,让模型自行评估,根据用户指令识别加载。但随着可用skills不断扩展,受限的上下文窗口难以支持这种方式,同时模型在面对大量skills时的推理和选择正确性大幅下降。

  3. SRA和RAG的区别是什么?

    RAG检索到的是知识片段,是被动的信息;SRA检索到的是skill,是主动的能力。

核心问题:当 Agent 需要解决一个任务时,能否从一个大规模技能语料库中自动检索到合适的技能,并正确应用到任务解决中?

  • 检索:能否从大量技能中找到任务相关的?
  • 整合:能否从检索结果中选出真正有用的?
  • 应用:选出的技能能否真正提升任务表现?

Method

Problem Formulation

skill是什么?SRA如何定义,具体流程是什么?

  • Skill:模块化功能包。一个skills i s_isi通常包含名称(n i n_ini),简短的自然语言描述(r i r_iri),详细的使用说明、调用条件、操作指南(main contentc i c_ici),可执行代码以及辅助资源(π i \pi_iπi)。大量skill构成corpusC i = { s 1 , s 2 , . . . s N } \mathcal{C}_i=\{s_1,s_2,...s_N\}Ci={s1,s2,...sN}
  • Skill Retrieval Augmentation:从库中检索任务相关的技能,辅助agent完成任务。
    • Retrieval:给定用户查询q qq和技能库C \mathcal{C}C,检索器R \mathcal{R}R返回候选Top-k技能。

      L k = R ( q , C ) = [ s ( 1 ) , s ( 2 ) , . . . s ( k ) ] , s ( i ) ∈ C , k ≪ N \mathcal{L}_k=\mathcal{R}(q,\mathcal{C})=[s^{(1)},s^{(2)},...s^{(k)}], s^{(i)}\in\mathcal{C},k\ll NLk=R(q,C)=[s(1),s(2),...s(k)]s(i)C,kN

    • Incorporation:给定查询q qq和候选skillsL k \mathcal{L}_kLk,模型M \mathcal{M}M识别/筛选可用skillsS ~ \tilde{\mathcal{S}}S~(实际用于任务的呈现形式;不同类型的skill可能不同)。如果模型认为自己就能解决或后选中没有可用的,S ~ \tilde{\mathcal{S}}S~可能为空。

      S ~ = G ( q , L k ; M ) \tilde{\mathcal{S}}=G(q,\mathcal{L}_k;\mathcal{M})S~=G(q,Lk;M)

    • Application:运用技能给出答案。A ^ = F ( q , S ~ ; M ) \hat{A}=F(q,\tilde{\mathcal{S}};\mathcal{M})A^=F(q,S~;M)

Benchmark Construction

SRA-Bench包含的组件:

  • 人工构建的gold skills
  • 需要skills的test instances & 对应注释。注释将每个实例与一个或多个相关技能关联起来。
  • 将gold skills插入包含真实干扰项的嘈杂技能集合中,形成大型外部技能语料库。

创新设计:为每个测试实例关联gold skills,类似纯文本检索RAG中的gold documents,便于评估Skill Retrieval的质量和对最终性能的贡献。

Experiments

Study Design

针对SRA 检索→整合→应用的三阶段流程,构建评估总体性能和各阶段的多个研究问题。

  • 总体性能
    • RQ1:引入SRA是否比不引入的baseline好?不同的SR-agents设置表现有何不同?
    • RQ2:SRA面对检索噪声的鲁棒性如何?
  • 检索阶段
    • RQ3:检索是否有效?传统词汇匹配和密集检索方法有什么区别?
    • RQ4:检索质量对最终性能有多大影响?是否仅当检索质量好时才能获取较好的性能?还是会收到后续整合和应用步骤的影响?
  • 技能加载阶段
    • RQ5:LLM能否区分包含/不包含gold skill的候选集?候选集包含gold skill,是否会对skill-loading有影响?
    • RQ6:与无需外部技能的任务相比,对超出自身能力的任务,LLM是否更倾向于加载外部skill?

Experimental Setup

  • Benchmark:SRA-Bench,包含六个对skill要求较高的测试集:TheoremQA、LogicBench 、ToolQA、CHAMP、MedCalc-Bench和BigCodeBench。涵盖了多种任务设置,包括数学推理、形式逻辑、工具使用和代码生成。每个实例都带有gold skills。
  • Evaluation Metrics
    • For skill retrieval:Recall @ K \text{Recall}@KRecall@K,NDCG @ K \text{NDCG}@KNDCG@K
    • For end-task performance:rule-based exact match
  • Models:Qwen3-4B、Qwen332B、Qwen3-235B-A22B;Llama-3.1-8B-Instruct、Llama-3.3-70B-Instruct;Mistral-Small-3.1-24B-Instruct-2503。GLM-5.1、GPT-5.4。
  • Skill-Use Strategies
    • LLM Direct:仅利用其参数知识来完成任务
    • Oracle Skill:将标注好的gold skill直接提供给模型
    • Full-Skill Injection:将topk skills的全部内容注入到任务上下文中
    • LLM Selection:提供候选skill的元数据,要求模型选择最相关的单个skill,然后注入所选技能的全部内容。
    • Progressive Disclosure:OpenClaw-style,模型获得一个skill目录,在推理过程中根据需要选择性地加载完整的技能内容。

Systematic Empirical Study

QuestionObservation
1SRA是否有效?有效,不同设置效果不同。LLM Select最优,但与Oracle Skill有差距
2对检索噪声是否鲁棒?不鲁棒,噪声增加时性能下降明显
3检索器是否有效?都不够好,不同检索器互有胜负
4检索质量是否影响性能?是必要不充分条件;后续的整合和应用也有影响
5能否识别相关的skills?不完全能。是否检索到合适skill对skill-loading的控制较弱
6能否判断skill需求?不能。无法判断何时需要、需要何种

Current Limitation

  • 无法判断是否需要skill:只要提供了skill,就尝试使用,即使面对简单任务
  • 无法判断skill是否相关:以接近的概率使用相关/不相关的skill
  • 难以将检索到的相关skill转化为更优的任务执行
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/15 6:07:04

全域数学·体积与表面积通项定理【乖乖数学】

全域数学体积与表面积通项定理【乖乖数学】 定理编号:GM-GenForm-20260520 作者:乖乖数学 成文时间:2026 年 5 月 20 日 编入典籍:《数理原本 第 0 卷0 幺无穷本源卷》增补核心定理📄 文档 1 总结:《全域数…

作者头像 李华
网站建设 2026/5/15 6:04:42

西电B测:基于SystemView的2PSK调制解调仿真与性能分析

1. SystemView与2PSK调制解调基础 SystemView作为通信系统仿真领域的"瑞士军刀",我在学生时代第一次接触就感受到它的强大。这个由美国ELANIX公司开发的工具,用可视化的图符(Token)搭建系统模型的方式,让通信…

作者头像 李华
网站建设 2026/5/15 6:04:25

嵌入式引导加载程序设计:从UART升级到OTA的实战指南

1. 项目概述:为什么“面向未来”要从引导加载程序开始?在嵌入式开发这个行当里摸爬滚打了十几年,我见过太多项目在初期风风火火,上线后却因为一个看似不起眼的问题而陷入泥潭:固件无法更新。客户反馈了一个致命Bug&…

作者头像 李华
网站建设 2026/5/15 6:01:39

智能画板开发实战:从草图识别到AI生成的技术架构与实现

1. 项目概述:一个“智能”的交互式数字画板最近在GitHub上看到一个挺有意思的项目,叫“Int-Pad”,直译过来就是“智能画板”。乍一看,你可能会觉得这又是一个简单的绘图应用,但点进去细究,你会发现它的野心…

作者头像 李华
网站建设 2026/5/15 6:01:35

AI智能体开发框架openclaw:模块化设计与RAG应用实战

1. 项目概述:一个面向开发者的AI智能体构建平台最近在GitHub上看到一个挺有意思的项目,叫openclaw-ai-agent-setup。光看这个名字,可能有点抽象,但如果你对AI智能体、自动化工作流或者RAG(检索增强生成)应用…

作者头像 李华