AI 设计出更强的 AI?
过去,改进模型架构、整理训练数据、琢磨学习算法,全得靠人类科学家长年累月地试错。
现在,一个叫 ASI-EVOLVE 的开源框架,让 AI 自己上手搞 AI 研发,而且在架构、数据、算法三条战线上,都拿出了超越人工方案的结果。
上海交通大学,上海创智学院生成式人工智能研究实验室(SII-GAIR)团队,提出的 ASI-EVOLVE,让 AI 自主设计 AI,在模型架构上发现的最佳设计,超越人类 SOTA 近三倍,在数据策展上把 MMLU 分数拉升超过 18 分,在强化学习算法上比 GRPO 高出 12.5 分,而且还顺便在生物医药领域试了试身手。
该研究把“学知识、出方案、做实验、写分析”这个研究闭环,塞进一套 AI 智能体里,加上人类已有文献作为认知起点,再配上一位专门解读实验结果的“分析脑”,做到了人类研究员反复打磨几年才能摸到的天花板。
研究闭环为什么这么难
科学家做 AI 研究,拆开来其实是三个沉重的包袱:执行成本高,搜索空间大,反馈信号糊。
训练一个候补模型可能要烧掉几十上百个 GPU 时,修改的不只是一两个函数,而是一整片互相牵连的代码库。
方案的可能性几乎无穷无尽,根本没有预设好的边界。
好不容易跑完实验,得到的不是简单“对错”,而是损失曲线、几十项基准分、资源占用率这些多维信号,得靠研究人员的直觉去提炼下一步方向。
团队用一套三维标尺来描述这种任务的难度:执行成本 C_exec,搜索空间复杂度 S_space,反馈复杂度 D_feedback。
最轻松一档是科学问答,不跑实验,只判对错。
再往上,像 MLE-bench、AI Scientist 这类结构化任务,目标明确,反馈干净,但探索范围被框死。
到了 FunSearch、AlphaEvolve 这些轻量级科学发现框架,搜索空间豁然开朗,但每次实验本身仍然小巧,改动的通常只是一小段代码,反馈也简单直接。
真正难啃的骨头,是 ASI-EVOLVE 瞄准的那一档:大规模科学探索。
设计新架构、策展预训练数据、研发 RL 算法,随便一个验证实验都要完整训练模型,搜索维度纵横交错,反馈又是多维且混杂噪声。在这块无人区,此前没有任何系统能以统一的方式持续取得突破。
理解了这个难度光谱,就明白 ASI-EVOLVE 不是又一个“拿 LLM 写代码”的花活,它必须解决两个根本问题:怎么在动手之前就避免乱撞,以及怎么从杂乱实验日志里自动淘出真金。
一个闭环,四个齿轮
ASI-EVOLVE 把每一轮进化拆成四步:学知识、出设计、跑实验、写分析。对应四个模块,各司其职。
研究者 (Researcher) 是出方案的大脑。
每轮从数据库里采样一批历史上成功或失败的尝试,再从认知库里用语义搜索捞出相关的人类论文要点,随后用大模型生成一套完整的新代码方案,以及一段自然语言动机说明。演化上百轮后,系统也支持“只改差异部分”的编辑模式,避免一遍遍搬运大段代码。
工程师 (Engineer) 负责执行。
它把研究者产出的程序丢进真实训练环境,返回结构化的评估指标,外加一个主分数作为适应度信号。为了省 GPU 和时间,工程师内置了提前淘汰机制,用墙钟时限和轻量快速测试把明显不靠谱的方案挡在门外。碰到一些难以用规则打分的设计,它还能请 LLM 当评委,补充定性判断。
分析者 (Analyzer) 是整个闭环里的点睛之笔。
单次实验会喷出海量的训练日志、基准分目、效率追踪数据,直接全塞给下一轮会撑爆上下文,也稀释掉有效信息。分析者的任务,就是把这堆原料蒸馏成一份简洁的诊断报告,点明哪些设计奏效、哪些模式崩溃了、哪些坑下次要绕开。报告会被写回数据库,成为未来迭代的时候可检索的经验。
认知库 (Cognition) 是起步的助推器。
它用大约 150 篇线性注意力论文、80 篇图神经网络文献或 10 篇前沿 RL 论文,提炼出已知的设计原则、常见陷阱、可试方向,用嵌入向量存储起来。每轮研究者在构思前,会拿当前上下文去认知库里取回最相关的那几条先验。消融实验看得清清楚楚:有认知库,冷启动阶段的得分一上来就高出一截;没有的话,前面很长一段时间都在低分区晃悠。
数据库 (Database) 是持久记忆。
每一轮的动机、代码、结果、分析报告都存成一个节点。采样策略可以是贪心的、随机的,也可以用 UCB1 这类兼顾探索与利用的算法,甚至用 MAP-Elites 维护差异化档案。
实验发现,当认知库已经提供了强先验时,偏向利用的 UCB1 反而能更快冲向顶尖方案——在圆周打包任务中,UCB1 搭配 GPT-5-mini 只用了 17 轮就达到当前最优,同一个模型用 MAP-Elites 得花 79 轮。
每轮从数据库采样上下文节点,通过嵌入检索相关认知条目,生成新候选程序,执行评估,生成分析报告并存入数据库供未来轮次使用。
三线作战,全面超车
在架构、数据、算法这三个 AI 研发的命脉上,ASI-EVOLVE 打了一场漂亮的战役。
模型架构。任务是从 DeltaNet 出发,设计新的线性注意力层,要求次二次复杂度、支持分块并行训练,还得能插入现有大型代码库。
每轮验证需要几个小时的 GPU 训练。系统额外加了静态检查、错误调试和查重机制,确保不浪费算力。探索阶段用小模型快速筛选,候选者进入更大规模验证。
总共跑了 1773 轮,产出了 1350 个候选架构,其中 105 个超越了 DeltaNet 基线。
前五名代表被放大到约 13 亿参数、100B token 上全面评估。
结果在开发集上平均准确率最高冲到 57.28%,比 DeltaNet 的 55.76% 高出 1.52 个百分点;泛化集上也从 44.74% 提到 45.40%。最强者 PathGateFusionNet 净增 0.97 分,而此前人类设计的 SOTA 改进(Mamba2)仅比 DeltaNet 好 0.34 分,速度拉近了近三倍。
分析这些顶尖架构,发现它们不约合同地抛弃了固定的路径分配,转向自适应多尺度路由:用层级化的门控动态调配局部和全局计算,引入可学习温度来防止过早只走单一路线,甚至用熵惩罚来避免模式崩坏。
换句话说,AI 自己摸索出了“因材施教,动态分配算力”这一设计原则。
数据策展。任务是为预训练语料的每个类别自动设计清洗策略。Nemotron-CC 里满是学术材料,夹杂着 HTML 残渣、不完整片段、格式混乱。
认知库先通过抽样检查标注出常见的质量问题,研究者据此生成候选策略,工程师处理 500 份样本文档,分析者对 50 组清洗前后文稿打分并给出诊断。确诊的新问题会被写回认知库。
这样迭代出来的策略被应用到 Nemotron-CC 的数学、计算机、医学等子集,砍掉 168B 低质 token,产出 Nemotron-CCASI+ 数据集(504B token)。
拿 3B 模型从零练 500B token,在 18 个基准上一比,该数据集平均分 44.13,比原始数据高出 3.96 分,也压过 FineWeb-Edu、DCLM 等知名语料库。知识密集型任务的涨幅尤其夸张:MMLU 涨了 18.64 分,CSQA 涨了 18.80 分,MedQA 涨了 13.48 分。
策略共性也很有意思:系统自发地收敛到“清理导向”的方案,组合定向噪声删除、格式标准化、领域感知的保留规则,同时避免过度过滤。
强化学习算法。以 GRPO 为基线,要求 AI 重新设计优势分配和梯度计算机制。认知库塞了 10 篇 GRPO 之后的方差降低、KL 惩罚相关论文。
探索阶段用小模型 4B 参数跑 150 步筛选候选者,通过初筛的再上 14B 参数跑 300 步,考核数学、推理、STEM、金融、编程等多项泛化能力。
300 轮演化后,10 个算法在探索阶段胜过 GRPO,3 个在 14B 验证中全面领先。最佳方案在 AMC32 上从 67.5 提到 80.0,AIME24 从 20.00 跳到 31.67,OlympiadBench 也涨了 5.04 分。
并且 AI 设计的算法创新,在数学推导上与人类提出的方差控制技巧异曲同工。
拆解自身,跨界验证
为了确认每一项设计的真实价值,团队还在经典的圆周打包任务上做了严格的比较和消融。把 26 个圆塞进一个单位正方形,让它们半径之和最大。这个任务验证成本极低,但算法设计空间很大,被多个进化框架当作共同擂台。
ASI-EVOLVE 用 GPT-5-mini 上阵,17 轮就冲到 2.63597 分,达到现有最强水平;而 AlphaEvolve 需要更多轮次,OpenEvolve 收敛速度和最终分数都更低。
拿掉分析者模块,系统一开始分数也不低(认知库在提供先验),但很快就陷入平台期,持续提升的能力明显弱化。
拿掉认知库,冷启动阶段直接趴窝好久,靠自身试错慢慢攒经验才逐渐赶上来。说明两者的协作模式很清晰:认知负责扶上马,分析负责送一程。
采样算法的影响也颇为有趣。MAP-Elites 强调保持多样性,UCB1 偏向利用高分节点,随机采样则没有偏好。
实验曲线显示,当认知库已经提供了很强的方向感时,UCB1 反而比刻意保多样性的 MAP-Elites 冲得更快、更稳,证明好的先验可以让我们少走弯路,专注深钻。
更让人信服的跨界证据来自药物-靶标相互作用预测。
AI 在前面的实验里学会了设计精妙的架构,这套本事放到生物医药场景也一样能打。以 DrugBAN 为种子架构,认知库塞进 80 篇图神经网络和 DTI 建模文章,经过 100 多轮演进,得到的新架构 ban_sinkhorn_ds_marginal_topk_v6,在 BindingDB 开发集上 AUROC 提升 1.91,F1 提升 2.95。
真正的惊喜在冷启动强泛化场景:药物、蛋白,或两者都完全没见过的测试里,AI 架构的 AUROC 提升分别达到 6.94、3.56 和 4.36 个百分点,远超分布内提升幅度。
这个结果点出了演化出的模型不是靠死记硬背,而是学到了更可迁移的分子交互表征。
新架构的秘诀,是把最优传输理论里的 Sinkhorn 迭代拿来做注意力,加上药物分子和蛋白结构各自的边缘化计算,再用可学习的 top-k 稀疏门控降噪。
这些点子不是拍脑袋想的,而是演化过程从图注意力、分子表征、计算生物学等跨领域文献里自己“搅拌”出来的。
整个这项工作的代码和策略都已开源。它没有画出一幅 AI 取代科学家的夸张图景,而是把人类从繁琐的执行与调参中抽离出来,转去定义真正重要的问题。
如果你也对 AI 驱动 AI 演化感兴趣,可以去代码仓库跑一跑,说不定下一个突破就藏在某次实验的日志里。
参考资料:
https://github.com/GAIR-NLP/ASI-Evolve
https://arxiv.org/pdf/2603.29640v1