【清华SRA】Skill Retrieval Augmentation for Agentic AI-编程阁

Background

为什么需要skills？
传统大模型逐渐转向Agentic AI，从被动的文本生成器转变为能主动推理、规划、调用工具的problem solver。模型本身的参数化知识难以支撑解决更复杂、宽泛的问题，因此需要引入外部的可复用的能力，即skills。
现有的引入skill的范式存在什么问题？
现有方法多采用“explicit in-context skill injection”，通过prompt列举可用的skills，让模型自行评估，根据用户指令识别加载。但随着可用skills不断扩展，受限的上下文窗口难以支持这种方式，同时模型在面对大量skills时的推理和选择正确性大幅下降。
SRA和RAG的区别是什么？
RAG检索到的是知识片段，是被动的信息；SRA检索到的是skill，是主动的能力。

核心问题：当 Agent 需要解决一个任务时，能否从一个大规模技能语料库中自动检索到合适的技能，并正确应用到任务解决中？

skill是什么？SRA如何定义，具体流程是什么？

Skill：模块化功能包。一个skills i s_isi通常包含名称（n i n_ini），简短的自然语言描述（r i r_iri），详细的使用说明、调用条件、操作指南（main contentc i c_ici），可执行代码以及辅助资源（π i \pi_iπi）。大量skill构成corpusC i = { s 1 , s 2 , . . . s N } \mathcal{C}_i=\{s_1,s_2,...s_N\}Ci={s1,s2,...sN}。
Skill Retrieval Augmentation：从库中检索任务相关的技能，辅助agent完成任务。
- Retrieval：给定用户查询q qq和技能库C \mathcal{C}C，检索器R \mathcal{R}R返回候选Top-k技能。
  L k = R ( q , C ) = [ s ( 1 ) , s ( 2 ) , . . . s ( k ) ] ， s ( i ) ∈ C , k ≪ N \mathcal{L}_k=\mathcal{R}(q,\mathcal{C})=[s^{(1)},s^{(2)},...s^{(k)}]， s^{(i)}\in\mathcal{C},k\ll NLk=R(q,C)=[s(1),s(2),...s(k)]，s(i)∈C,k≪N
- Incorporation：给定查询q qq和候选skillsL k \mathcal{L}_kLk，模型M \mathcal{M}M识别/筛选可用skillsS ~ \tilde{\mathcal{S}}S~（实际用于任务的呈现形式；不同类型的skill可能不同）。如果模型认为自己就能解决或后选中没有可用的，S ~ \tilde{\mathcal{S}}S~可能为空。
  S ~ = G ( q , L k ; M ) \tilde{\mathcal{S}}=G(q,\mathcal{L}_k;\mathcal{M})S~=G(q,Lk;M)
- Application：运用技能给出答案。A ^ = F ( q , S ~ ; M ) \hat{A}=F(q,\tilde{\mathcal{S}};\mathcal{M})A^=F(q,S~;M)

SRA-Bench包含的组件：

创新设计：为每个测试实例关联gold skills，类似纯文本检索RAG中的gold documents，便于评估Skill Retrieval的质量和对最终性能的贡献。

针对SRA 检索→整合→应用的三阶段流程，构建评估总体性能和各阶段的多个研究问题。

总体性能
- RQ1：引入SRA是否比不引入的baseline好？不同的SR-agents设置表现有何不同？
- RQ2：SRA面对检索噪声的鲁棒性如何？
检索阶段
- RQ3：检索是否有效？传统词汇匹配和密集检索方法有什么区别？
- RQ4：检索质量对最终性能有多大影响？是否仅当检索质量好时才能获取较好的性能？还是会收到后续整合和应用步骤的影响？
技能加载阶段
- RQ5：LLM能否区分包含/不包含gold skill的候选集？候选集包含gold skill，是否会对skill-loading有影响？
- RQ6：与无需外部技能的任务相比，对超出自身能力的任务，LLM是否更倾向于加载外部skill？

Benchmark：SRA-Bench，包含六个对skill要求较高的测试集：TheoremQA、LogicBench 、ToolQA、CHAMP、MedCalc-Bench和BigCodeBench。涵盖了多种任务设置，包括数学推理、形式逻辑、工具使用和代码生成。每个实例都带有gold skills。
Evaluation Metrics
- For skill retrieval：Recall @ K \text{Recall}@KRecall@K,NDCG @ K \text{NDCG}@KNDCG@K
- For end-task performance：rule-based exact match
Models：Qwen3-4B、Qwen332B、Qwen3-235B-A22B；Llama-3.1-8B-Instruct、Llama-3.3-70B-Instruct；Mistral-Small-3.1-24B-Instruct-2503。GLM-5.1、GPT-5.4。
Skill-Use Strategies
- LLM Direct：仅利用其参数知识来完成任务
- Oracle Skill：将标注好的gold skill直接提供给模型
- Full-Skill Injection：将topk skills的全部内容注入到任务上下文中
- LLM Selection：提供候选skill的元数据，要求模型选择最相关的单个skill，然后注入所选技能的全部内容。
- Progressive Disclosure：OpenClaw-style，模型获得一个skill目录，在推理过程中根据需要选择性地加载完整的技能内容。

Question	Observation
1	SRA是否有效？	有效，不同设置效果不同。LLM Select最优，但与Oracle Skill有差距
2	对检索噪声是否鲁棒？	不鲁棒，噪声增加时性能下降明显
3	检索器是否有效？	都不够好，不同检索器互有胜负
4	检索质量是否影响性能？	是必要不充分条件；后续的整合和应用也有影响
5	能否识别相关的skills？	不完全能。是否检索到合适skill对skill-loading的控制较弱
6	能否判断skill需求？	不能。无法判断何时需要、需要何种