交大ASI-EVOLVE框架神了！AI设计AI，超越人类 SOTA 近三倍-编程阁

AI 设计出更强的 AI？

过去，改进模型架构、整理训练数据、琢磨学习算法，全得靠人类科学家长年累月地试错。

现在，一个叫 ASI-EVOLVE 的开源框架，让 AI 自己上手搞 AI 研发，而且在架构、数据、算法三条战线上，都拿出了超越人工方案的结果。

上海交通大学，上海创智学院生成式人工智能研究实验室（SII-GAIR）团队，提出的 ASI-EVOLVE，让 AI 自主设计 AI，在模型架构上发现的最佳设计，超越人类 SOTA 近三倍，在数据策展上把 MMLU 分数拉升超过 18 分，在强化学习算法上比 GRPO 高出 12.5 分，而且还顺便在生物医药领域试了试身手。

该研究把“学知识、出方案、做实验、写分析”这个研究闭环，塞进一套 AI 智能体里，加上人类已有文献作为认知起点，再配上一位专门解读实验结果的“分析脑”，做到了人类研究员反复打磨几年才能摸到的天花板。

研究闭环为什么这么难

科学家做 AI 研究，拆开来其实是三个沉重的包袱：执行成本高，搜索空间大，反馈信号糊。

训练一个候补模型可能要烧掉几十上百个 GPU 时，修改的不只是一两个函数，而是一整片互相牵连的代码库。

方案的可能性几乎无穷无尽，根本没有预设好的边界。

好不容易跑完实验，得到的不是简单“对错”，而是损失曲线、几十项基准分、资源占用率这些多维信号，得靠研究人员的直觉去提炼下一步方向。

团队用一套三维标尺来描述这种任务的难度：执行成本 C_exec，搜索空间复杂度 S_space，反馈复杂度 D_feedback。

最轻松一档是科学问答，不跑实验，只判对错。

再往上，像 MLE-bench、AI Scientist 这类结构化任务，目标明确，反馈干净，但探索范围被框死。

到了 FunSearch、AlphaEvolve 这些轻量级科学发现框架，搜索空间豁然开朗，但每次实验本身仍然小巧，改动的通常只是一小段代码，反馈也简单直接。

真正难啃的骨头，是 ASI-EVOLVE 瞄准的那一档：大规模科学探索。

设计新架构、策展预训练数据、研发 RL 算法，随便一个验证实验都要完整训练模型，搜索维度纵横交错，反馈又是多维且混杂噪声。在这块无人区，此前没有任何系统能以统一的方式持续取得突破。

理解了这个难度光谱，就明白 ASI-EVOLVE 不是又一个“拿 LLM 写代码”的花活，它必须解决两个根本问题：怎么在动手之前就避免乱撞，以及怎么从杂乱实验日志里自动淘出真金。

一个闭环，四个齿轮

ASI-EVOLVE 把每一轮进化拆成四步：学知识、出设计、跑实验、写分析。对应四个模块，各司其职。

研究者 (Researcher) 是出方案的大脑。

每轮从数据库里采样一批历史上成功或失败的尝试，再从认知库里用语义搜索捞出相关的人类论文要点，随后用大模型生成一套完整的新代码方案，以及一段自然语言动机说明。演化上百轮后，系统也支持“只改差异部分”的编辑模式，避免一遍遍搬运大段代码。

工程师 (Engineer) 负责执行。

它把研究者产出的程序丢进真实训练环境，返回结构化的评估指标，外加一个主分数作为适应度信号。为了省 GPU 和时间，工程师内置了提前淘汰机制，用墙钟时限和轻量快速测试把明显不靠谱的方案挡在门外。碰到一些难以用规则打分的设计，它还能请 LLM 当评委，补充定性判断。

分析者 (Analyzer) 是整个闭环里的点睛之笔。

单次实验会喷出海量的训练日志、基准分目、效率追踪数据，直接全塞给下一轮会撑爆上下文，也稀释掉有效信息。分析者的任务，就是把这堆原料蒸馏成一份简洁的诊断报告，点明哪些设计奏效、哪些模式崩溃了、哪些坑下次要绕开。报告会被写回数据库，成为未来迭代的时候可检索的经验。

认知库 (Cognition) 是起步的助推器。

它用大约 150 篇线性注意力论文、80 篇图神经网络文献或 10 篇前沿 RL 论文，提炼出已知的设计原则、常见陷阱、可试方向，用嵌入向量存储起来。每轮研究者在构思前，会拿当前上下文去认知库里取回最相关的那几条先验。消融实验看得清清楚楚：有认知库，冷启动阶段的得分一上来就高出一截；没有的话，前面很长一段时间都在低分区晃悠。

数据库 (Database) 是持久记忆。

每一轮的动机、代码、结果、分析报告都存成一个节点。采样策略可以是贪心的、随机的，也可以用 UCB1 这类兼顾探索与利用的算法，甚至用 MAP-Elites 维护差异化档案。

实验发现，当认知库已经提供了强先验时，偏向利用的 UCB1 反而能更快冲向顶尖方案——在圆周打包任务中，UCB1 搭配 GPT-5-mini 只用了 17 轮就达到当前最优，同一个模型用 MAP-Elites 得花 79 轮。

每轮从数据库采样上下文节点，通过嵌入检索相关认知条目，生成新候选程序，执行评估，生成分析报告并存入数据库供未来轮次使用。

三线作战，全面超车

在架构、数据、算法这三个 AI 研发的命脉上，ASI-EVOLVE 打了一场漂亮的战役。

模型架构。任务是从 DeltaNet 出发，设计新的线性注意力层，要求次二次复杂度、支持分块并行训练，还得能插入现有大型代码库。

每轮验证需要几个小时的 GPU 训练。系统额外加了静态检查、错误调试和查重机制，确保不浪费算力。探索阶段用小模型快速筛选，候选者进入更大规模验证。

总共跑了 1773 轮，产出了 1350 个候选架构，其中 105 个超越了 DeltaNet 基线。

前五名代表被放大到约 13 亿参数、100B token 上全面评估。

结果在开发集上平均准确率最高冲到 57.28%，比 DeltaNet 的 55.76% 高出 1.52 个百分点；泛化集上也从 44.74% 提到 45.40%。最强者 PathGateFusionNet 净增 0.97 分，而此前人类设计的 SOTA 改进（Mamba2）仅比 DeltaNet 好 0.34 分，速度拉近了近三倍。

分析这些顶尖架构，发现它们不约合同地抛弃了固定的路径分配，转向自适应多尺度路由：用层级化的门控动态调配局部和全局计算，引入可学习温度来防止过早只走单一路线，甚至用熵惩罚来避免模式崩坏。

换句话说，AI 自己摸索出了“因材施教，动态分配算力”这一设计原则。

数据策展。任务是为预训练语料的每个类别自动设计清洗策略。Nemotron-CC 里满是学术材料，夹杂着 HTML 残渣、不完整片段、格式混乱。

认知库先通过抽样检查标注出常见的质量问题，研究者据此生成候选策略，工程师处理 500 份样本文档，分析者对 50 组清洗前后文稿打分并给出诊断。确诊的新问题会被写回认知库。

这样迭代出来的策略被应用到 Nemotron-CC 的数学、计算机、医学等子集，砍掉 168B 低质 token，产出 Nemotron-CCASI+ 数据集（504B token）。

拿 3B 模型从零练 500B token，在 18 个基准上一比，该数据集平均分 44.13，比原始数据高出 3.96 分，也压过 FineWeb-Edu、DCLM 等知名语料库。知识密集型任务的涨幅尤其夸张：MMLU 涨了 18.64 分，CSQA 涨了 18.80 分，MedQA 涨了 13.48 分。

策略共性也很有意思：系统自发地收敛到“清理导向”的方案，组合定向噪声删除、格式标准化、领域感知的保留规则，同时避免过度过滤。

强化学习算法。以 GRPO 为基线，要求 AI 重新设计优势分配和梯度计算机制。认知库塞了 10 篇 GRPO 之后的方差降低、KL 惩罚相关论文。

探索阶段用小模型 4B 参数跑 150 步筛选候选者，通过初筛的再上 14B 参数跑 300 步，考核数学、推理、STEM、金融、编程等多项泛化能力。

300 轮演化后，10 个算法在探索阶段胜过 GRPO，3 个在 14B 验证中全面领先。最佳方案在 AMC32 上从 67.5 提到 80.0，AIME24 从 20.00 跳到 31.67，OlympiadBench 也涨了 5.04 分。

并且 AI 设计的算法创新，在数学推导上与人类提出的方差控制技巧异曲同工。

拆解自身，跨界验证

为了确认每一项设计的真实价值，团队还在经典的圆周打包任务上做了严格的比较和消融。把 26 个圆塞进一个单位正方形，让它们半径之和最大。这个任务验证成本极低，但算法设计空间很大，被多个进化框架当作共同擂台。

ASI-EVOLVE 用 GPT-5-mini 上阵，17 轮就冲到 2.63597 分，达到现有最强水平；而 AlphaEvolve 需要更多轮次，OpenEvolve 收敛速度和最终分数都更低。

拿掉分析者模块，系统一开始分数也不低（认知库在提供先验），但很快就陷入平台期，持续提升的能力明显弱化。

拿掉认知库，冷启动阶段直接趴窝好久，靠自身试错慢慢攒经验才逐渐赶上来。说明两者的协作模式很清晰：认知负责扶上马，分析负责送一程。

采样算法的影响也颇为有趣。MAP-Elites 强调保持多样性，UCB1 偏向利用高分节点，随机采样则没有偏好。

实验曲线显示，当认知库已经提供了很强的方向感时，UCB1 反而比刻意保多样性的 MAP-Elites 冲得更快、更稳，证明好的先验可以让我们少走弯路，专注深钻。

更让人信服的跨界证据来自药物-靶标相互作用预测。

AI 在前面的实验里学会了设计精妙的架构，这套本事放到生物医药场景也一样能打。以 DrugBAN 为种子架构，认知库塞进 80 篇图神经网络和 DTI 建模文章，经过 100 多轮演进，得到的新架构 ban_sinkhorn_ds_marginal_topk_v6，在 BindingDB 开发集上 AUROC 提升 1.91，F1 提升 2.95。

真正的惊喜在冷启动强泛化场景：药物、蛋白，或两者都完全没见过的测试里，AI 架构的 AUROC 提升分别达到 6.94、3.56 和 4.36 个百分点，远超分布内提升幅度。

这个结果点出了演化出的模型不是靠死记硬背，而是学到了更可迁移的分子交互表征。

新架构的秘诀，是把最优传输理论里的 Sinkhorn 迭代拿来做注意力，加上药物分子和蛋白结构各自的边缘化计算，再用可学习的 top-k 稀疏门控降噪。

这些点子不是拍脑袋想的，而是演化过程从图注意力、分子表征、计算生物学等跨领域文献里自己“搅拌”出来的。

整个这项工作的代码和策略都已开源。它没有画出一幅 AI 取代科学家的夸张图景，而是把人类从繁琐的执行与调参中抽离出来，转去定义真正重要的问题。

如果你也对 AI 驱动 AI 演化感兴趣，可以去代码仓库跑一跑，说不定下一个突破就藏在某次实验的日志里。

参考资料：

https://github.com/GAIR-NLP/ASI-Evolve

https://arxiv.org/pdf/2603.29640v1