这项由莫斯科独立人工智能研究院与莫斯科钢铁合金学院联合开展的研究,发表于2026年第43届国际机器学习大会(ICML 2026),会议在韩国首尔举办,收录于PMLR第306卷。有兴趣深入了解的读者可以通过论文编号arXiv:2606.04525v2查询完整论文。
基因组学,简单说就是研究生物DNA密码的学科,近年来迎来了一波人工智能的热潮。就像自然语言处理领域有GPT、BERT这样的"大模型明星",基因组学领域也冒出了几十个专门读懂DNA序列的AI模型。它们有的擅长预测基因是否会被激活,有的擅长识别DNA上的化学修饰,有的则专注于判断一段DNA来自哪个物种。
然而问题来了——这些模型究竟谁更厉害?这个看似简单的问题,在2026年之前竟然没有一个可靠的答案。原因不是因为大家不想知道,而是因为每个团队发布新模型时,都只用自己挑选的几个测试题来展示成绩,彼此之间的测试题根本对不上号。这就好比一场厨艺大赛,张厨师只展示了他的红烧肉,李厨师只展示了她的蛋糕,王厨师只展示了他的炒青菜——你根本没办法说谁的厨艺最全面。
更棘手的是,不同团队用的评分标准也不一样,就连同一道菜的做法也各有不同。于是"谁是最强基因组AI"这个问题,变成了一团混沌,每个团队都能在自己划定的圈子里宣称自己是冠军,却没有一场真正公平的大比拼。
正是为了解决这个问题,研究团队构建了GENEB——一个专门用来公平比较基因组AI模型的标准化擂台。他们把40个主流基因组AI模型拉到同一个擂台上,用统一的规则,让每个模型在100道题目上一一作答,这100道题覆盖了13个不同的生物学领域。这场史无前例的大比拼,不仅给出了目前最全面的排名,更揭示了一些让所有人都大跌眼镜的发现。
一、为什么比较基因组AI这么难——混乱的"武林江湖"
在正式介绍这场擂台赛之前,有必要先理解这个领域有多混乱。研究团队画了一张图,把目前所有主流基因组AI模型之间的比较关系用箭头连了起来——箭头代表"这篇论文把那个模型当作对比基准"。结果这张图看起来像一张四处断裂的蜘蛛网,很多模型之间根本没有箭头相连,形成了一个个孤立的小岛。
以三个颇具代表性的模型为例:DNA-GPT由斯坦福相关团队开发,GENOMEOCEAN专注于环境宏基因组,EVO则以处理极长DNA序列见长。这三个模型各自宣称在某些任务上表现出色,但由于测试体系完全不同,你根本无法直接比较它们。同一个模型,在某篇论文里被捧为突破性进展,在另一篇论文里却表现平平——这并不是因为模型本身有问题,而是因为测试环境根本不一样。
这种混乱带来的后果不仅是学术上的不便,更会造成资源的严重浪费。如果一个生物制药公司想为自己的基因分析流程挑选一个AI模型,面对几十个各说各好的选项,根本无从下手。更危险的是,一个在某个特定测试上表现亮眼的模型,可能在实际应用中一塌糊涂,但因为缺乏全面比较,没有人能发现这个陷阱。
研究团队用一个很形象的比喻来描述这个问题:每个模型的发布论文就像一个演员只拍了自己最好看的定妆照,但没有人知道他在其他场景下长什么样。GENEB的使命,就是让所有人都站在同一个打光均匀的摄影棚里,同时拍照,让观众能真正比较他们的面貌。
二、搭建公平擂台——GENEB是怎么设计的
GENEB的核心设计理念可以用"冻结、探针、统一"六个字来概括。
所谓"冻结",是指在测试过程中,研究团队不允许模型针对每道题目进行专门训练。每个模型就像一个已经毕业的学生,带着它在预训练阶段学到的所有知识来参加考试,考试期间不能临时补课。这样做的好处是,测试的是模型真正内化的能力,而不是针对某道题目死记硬背的能力。
所谓"探针",是指研究团队在每个冻结模型的输出上套了一个极其简单的分类器——本质上就是一条直线。这条直线的任务是根据模型提取的DNA特征来做出判断。如果模型确实学到了有用的DNA知识,这条直线就能表现良好;如果模型的学习是无效的,再好的直线也救不了它。这种方法能干净地隔离出"模型本身的表达能力",排除任务特定训练带来的干扰。
所谓"统一",是指所有40个模型都经历完全一样的测试流程:同样的100道题、同样的评分标准、同样的随机种子(为了确保结果可重复,研究团队用了五个固定的随机种子取平均值),甚至同样的数据处理方式。
评分标准选用的是马修斯相关系数,简称MCC。普通人可以把它理解成一把更公平的尺子——当考题里正确答案和错误答案的数量差距很大时,普通准确率会产生误导,而MCC能更真实地反映模型的判断能力。
100道题目被分成了13个大类,覆盖了基因组学中最重要的问题领域。这13类包括:组蛋白修饰预测(DNA被特定蛋白质"打了标记"之后基因表达会怎么变)、启动子识别(找到基因的"开关位置")、增强子预测(找到让基因开关更灵敏的"调节旋钮")、DNA甲基化(DNA上的一种化学修饰,与细胞记忆相关)、剪接位点检测(基因在被"翻译"前需要剪掉不用的部分,剪在哪里至关重要)、长非编码RNA分类(一类不编码蛋白质但有重要功能的RNA)、小鼠增强子预测、转录因子结合预测、物种分类、调控元件预测、病毒与噬菌体检测、编码与非编码序列区分,以及染色质可及性预测。
此外,研究团队还设计了三种测试模式:全数据模式(模型有足够多的标注样本可以参考)、10样本模式(每个类别只给10个标注样本,模拟真实世界中标注数据稀缺的情况)、1样本模式(极端情况,每个类别只有1个参考样本)。这三种模式结合起来,能全面考察模型在不同数据条件下的表现。
三、40位选手登场——这些模型的背景各不相同
这40个参赛模型来自全球各地的顶尖研究团队,它们的"出身"千差万别,就像来自不同门派的武林高手。
从模型的"读字方式"(即分词策略)来看,有的模型把DNA一个碱基一个碱基地读(单核苷酸方式),就像逐字阅读;有的把相邻几个碱基合并成一个单位来读(k-mer方式),类似于阅读时按音节划分;还有的借鉴了自然语言处理中的"字节对编码"技术,让模型自己学习如何切分DNA序列。
从模型的"学习框架"(即架构)来看,有的是Transformer编码器,擅长双向理解序列上下文;有的是Transformer解码器,擅长从左到右生成式地理解序列;有的是状态空间模型(Mamba),设计上更擅长处理超长序列;还有的是混合了多种机制的新型架构。
从模型的"读过什么书"(即预训练数据)来看,差异更是悬殊。有的只读了人类基因组,有的读了几十种不同物种的基因组,有的专门读了植物基因组,有的读了微生物基因组,甚至有一个读的全是原核生物(细菌等)的基因组。
参赛模型的体量也从不到200万参数的"迷你选手"横跨到70亿参数的"巨无霸",足足覆盖了三个数量级的差距。这种多样性使得比较结果更有参考价值,也为后续的深入分析提供了丰富的素材。
值得一提的是,研究团队最初调查了53个模型,最终只有40个能参加比赛,另外13个因为各种原因被排除:有的因为代码有严重bug无法运行,有的因为权重文件根本没有公开,有的需要特殊的超级计算硬件,还有一个(ChatNT)被排除是因为它只是另一个模型的"外壳",并不是独立的基础模型。这个"排除名单"本身就说明了当前基因组AI领域在可重复性上存在严重问题——四分之一的模型连能否运行都成问题。
四、大比拼的惊人发现——"块头大"并不等于"本事大"
比赛结果出来后,最让人意外的发现是:参数数量多并不能保证成绩好。
在总体排名上,模型的参数量和综合成绩之间确实存在正相关关系——统计学上用斯皮尔曼相关系数来衡量,数值约为0.565,属于中等强度的相关。换句话说,更大的模型平均而言确实表现更好,但这个规律有大量的例外。
研究团队仔细统计后发现,在36个"同领域"模型(排除了那些专门训练在与测试任务完全不相关的数据上的模型)中,竟然有31次出现了"小模型完胜大模型"的情况,且"小"的定义是至少小5倍。
最戏剧性的例子是MUTBERT和EVO。MUTBERT是一个只有8600万参数的小模型,专门在人类基因组数据上训练,读取DNA的方式是逐个碱基;EVO则是一个整整70亿参数的庞然大物,体量是MUTBERT的81倍。然而在GENEB的综合测试中,MUTBERT的成绩比EVO高出了整整0.231分(以MCC为单位)。这就好比一个在家乡厨师培训班结业的学徒,在综合厨艺大赛上完胜了一个在米其林餐厅工作了二十年的大厨——原因并不是那个大厨不会做饭,而是那位大厨从来只做法餐,突然被要求做中国菜。
EVO的问题正是如此:它的预训练数据几乎全是原核生物(细菌等微生物)的基因组,而GENEB的13个测试类别中,有12个评估的是真核生物(包括人类、植物、动物)的基因组任务。把一个专门学法语的学生拉来考日语,考砸了很正常。
这个发现的深刻意义在于:简单地用"参数量多少"来选择基因组AI模型是一个危险的策略。如果你在做的是人类基因组相关的研究,一个800万参数但针对性训练的小模型,可能远比一个700亿参数的通用大模型更有用。
五、架构之争——注意力机制胜了,但也有例外
在所有模型架构的比较中,研究团队特别关心一个问题:以Transformer为代表的"注意力机制"架构,和近年来被寄予厚望的"状态空间模型"(Mamba架构)架构,究竟谁更强?
为了公平比较,研究团队只对那些在相同数据集上训练、使用相同分词策略的模型进行对比。在这种受控条件下,Transformer类模型展现出了全面的优势。
具体来看,OMNI-DNA-1B(Transformer解码器架构,10亿参数)与eccDNAMamba(Mamba架构,同样10亿参数)相比,在相同的多物种数据集和BPE分词下,前者的综合得分高出后者整整0.149分。类似地,GENOMEOCEAN-500M(Transformer解码器)也以0.131分的优势击败eccDNAMamba。
但有一个非常值得关注的例外:在染色质可及性预测这个细分领域,Mamba架构的表现异常出色。eccDNAMamba在这个类别上的得分竟然比GENOMEOCEAN-500M高出了0.124分。另一个Mamba相关的混合架构模型JanusDNA-72-W,在染色质可及性上的表现也比它自己的平均水平高出了整整0.200分——这说明某些Mamba架构可能天然对染色质可及性任务有独特的适应性。
更令人玩味的是,在Transformer内部,编码器和解码器的优劣并非固定不变。在组蛋白修饰预测上,Transformer解码器表现更好;在TF结合预测上,Transformer编码器占优;而在启动子识别上,编码器又胜了一筹。这告诉我们,架构的选择必须结合具体任务,没有放之四海而皆准的最优架构。
六、分词方式的影响——没有绝对赢家
分词方式(即如何把连续的DNA碱基序列切分成模型可以处理的单元)是另一个重要变量。研究团队通过12对受控对比,专门研究了分词策略的影响。
结论出人意料:没有任何一种分词方式能在所有情况下碾压其他方式。BPE方式在多物种数据+Transformer解码器的组合下平均比k-mer方式好0.020分,但这个优势在不同模型对之间差异很大,甚至有一对出现了BPE反而不如k-mer的情况。在Transformer编码器配合多物种数据的组合下,BPE和k-mer几乎打平,差距在0.006分以内。
单核苷酸分词(每个碱基单独处理)在人类基因组数据+Transformer编码器的组合下表现出色——MUTBERT(单核苷酸)比同等条件下的GENA-LM(BPE)高出0.033分,比GROVER(BPE)高出0.038分。但在病毒/噬菌体检测任务上,情况完全相反,BPE分词的GROVER比单核苷酸的MUTBERT高出了0.209分。
这个发现意味着,分词方式的选择不能脱离架构和训练数据单独讨论。三者之间存在复杂的交互关系,必须整体考量。
七、预训练数据是关键——"读什么书"比"读多少书"更重要
预训练数据对模型能力的影响,是GENEB所有发现中最一致、最可靠的规律。
研究团队通过精心设计的受控对比(架构和分词完全相同,只改变预训练数据类型)发现,多物种预训练数据平均而言比纯人类基因组数据好0.012分。虽然这个平均差距不大,但在特定任务类别上差距极为显著。在染色质可及性预测上,多物种预训练的优势体现在6对中的全部6对,平均领先0.062分。在剪接位点检测上,多物种预训练领先0.038分;在物种分类上,领先0.031分;在小鼠增强子预测上,领先0.023分;在长非编码RNA分类上,领先0.022分。
然而,在病毒/噬菌体检测任务上,情况发生了逆转——人类基因组预训练的模型反而平均领先0.034分。研究团队推测,这是因为在人类基因组数据中包含了大量与人类相关的病毒序列(如内源性逆转录病毒),这些数据恰好对病毒检测任务有帮助。
更戏剧性的对比出现在真核多物种数据和微生物多物种数据之间。以相同架构和分词为条件,在真核生物基因组上训练的模型,综合成绩比专注于微生物的DNABERT-S高出约0.084分。差距最大的任务是剪接位点检测,领先了整整0.222分——这完全符合生物学预期,因为细菌根本没有剪接机制,在细菌基因组上训练的模型当然无法理解真核生物的剪接过程。
另一个重要发现是,专注于真核生物基因(而非整个基因组)的预训练策略,在受控比较中比广泛多物种预训练领先约0.063分,在染色质可及性(+0.191)、长非编码RNA分类(+0.142)和小鼠增强子预测(+0.124)上差距最为明显。当然,这个结论只基于一对受控对比,需要谨慎解读。
八、少样本测试揭示的反常现象——排名"大洗牌"
当测试条件从全数据降到10个样本或1个样本时,排行榜发生了剧烈的震动。
在全数据条件下,40个模型的平均MCC得分为0.488。到了10样本条件,这个数字降到0.253,下降了48%。到1样本条件,更是跌至0.106,与全数据相比损失了78%之多。
各个任务类别对数据稀缺的耐受程度差异极大。启动子识别任务在1样本条件下仍能保留38.8%的全数据性能,物种分类保留了30.1%——这两类任务依赖的是序列组成的整体统计特征,少数样本就能捕捉到关键信号。相比之下,有三个类别在1样本条件下基本坍塌:病毒/噬菌体检测损失了93.5%,DNA甲基化预测损失了93.2%,长非编码RNA分类损失了91.3%。
更反常的发现是:在全数据条件下成绩最好的那些大模型,在少样本条件下反而表现出最大的绝对下滑。GENERATOR-EUKARYOTE-3B在全数据下综合得分为0.605,但到10样本时直接掉到0.116,下滑了0.489分;LUCAONE下滑了0.461分;NT-2.5B-MS下滑了0.456分。
反过来,那些在全数据下表现很差的小模型,在少样本条件下的绝对下滑幅度反而很小。但研究团队明确指出,这种"稳定"是假象——因为这些模型本来成绩就很低,根本没有多少可以继续下跌的空间,就像一个本来就在地板上的人,摔跤时下跌的距离自然比站在高处的人少。
这个发现对实际应用有重要意义:如果你的研究场景是数据极度稀缺的,全数据下的排行榜完全不能作为选模型的参考,必须专门做少样本评估。研究团队发现,在13个任务类别中,有8个类别的最佳模型在从全数据换到10样本后发生了更换。
九、"硬骨头"任务——这些问题当前AI还啃不动
GENEB的100道题中,有28道题的平均MCC分数低于0.35,意味着目前所有模型在这些任务上的表现都离实用还差得很远。
最难啃的硬骨头是4mC甲基化预测(4mC是DNA上的一种特殊化学修饰,在细菌中较常见)。针对三种特定细菌的4mC预测任务,平均得分分别只有0.061(新型细菌G. subterraneus)、0.103(大肠杆菌)和0.107(另一种细菌G. pickeringii)。即便是排行榜第一的大模型,在这些任务上的得分也只有0.206到0.477之间——仍然不够好。
植物长非编码RNA分类同样是重灾区,番茄、大豆、小麦等植物的lncRNA分类任务平均得分都在0.221到0.238之间。
更关键的是,简单增大模型规模并不能解决这些硬骨头任务。以DNA甲基化为例,模型规模和成绩之间的相关系数只有0.347,低于基准水平,而且没有任何一个参数量低于3亿的模型能在这个类别超过0.34分的得分线。研究团队判断,这类任务的突破需要从根本上改进预训练数据的设计和模型的归纳偏置,光靠堆砌参数是走不通的。
十、高分散任务的启示——数据来源决定命运
研究团队还专门分析了那些模型之间分歧最大的任务(标准差超过0.12的13个任务),把每个任务的前三名和后三名的模型特征汇总起来,结果图案极为清晰。
在前三名的39个席位中,多物种预训练的模型占了20席,真核基因预训练的模型占了12席,两者合计占到了32席,高达82%。与此同时,纯人类基因组预训练的模型占据了后三名39个席位中的29席,占比高达74%,几乎全面聚集在底部。
从架构角度看,Transformer解码器占了前三名的18席,Transformer编码器占了15席,两者合计33席,占比85%。而Mamba架构(17席)、混合Mamba-MoE架构(7席)和StripedHyena架构(6席)则主导了后三名。
这个模式传递了一个明确信号:在那些最能区分模型好坏的任务上,决定成败的主要因素是预训练数据的覆盖范围和架构选择,而不是模型有多大。
十一、实用选模指南——不同任务应该选哪个模型
基于所有的测试结果,研究团队给出了针对不同任务的实用选模建议,这部分是论文中最有实践价值的内容之一。
对于预算有限、需要轻量级模型的场景,MUTBERT(8600万参数,Transformer编码器,单核苷酸分词,人类基因组预训练)是一个出色的选择。它在13个类别中的8个类别里位居参数量不超过1亿的模型第一,综合得分达到0.529,是所有小模型中最强的。
对于组蛋白修饰预测,GENOMEOCEAN-4B(40亿参数,综合得分0.545)和GENOMEOCEAN-500M(5亿参数,得分0.537)是领头羊,且这个类别与模型规模的相关性最高,是整个测试中扩展规律最稳定的一个类别。
对于TF结合预测和调控元件预测,CNN-Transformer混合架构的ENFORMER(2.5亿参数,专门在人鼠表观基因组谱上训练)以0.698分稳居第一,远超同类。它的参数量仅250M,却击败了所有更大的模型。
对于病毒/噬菌体检测,GENOMEOCEAN-4B以0.697分领先,GENOMEOCEAN-500M以0.657分紧随其后,两者远超第三名。这个类别明显偏向于在元基因组数据(包含大量病毒序列的环境样本)上训练的模型。
对于植物长非编码RNA分类,LUCAONE(20亿参数,统一核酸+蛋白质预训练)以0.508分排名第一,尽管它并非专门针对植物训练。最重要的是,在这个任务上,人类基因组预训练的模型普遍表现很差,平均只有0.157分,而植物专用模型能达到0.347分。
对于DNA甲基化预测,GENERATOR-EUKARYOTE-3B以0.440分排名第一,但这个类别整体难度极高,1样本条件下没有任何模型的得分能超过0.04——基本等同于随机猜测。
对于染色质可及性预测,GENERATOR-EUKARYOTE-3B(0.728)和OMNI-DNA-1B(0.714)名列前茅,但值得一提的是,即便是只有198万参数的JanusDNA-72-W也能达到0.599分,在这个类别排名第14,这在整个测试中是最惊人的"以小胜大"案例之一。
十二、综合排行榜的不稳定性——一张表解决不了所有问题
研究团队最终用热力图形式展示了所有40个模型在13个类别上的表现,这张图是整篇论文中最有说服力的一张。每个格子代表一个模型在一个类别上的平均成绩,颜色从红色(差)到绿色(好)过渡。
这张图最直观的信息是:没有任何一个模型能在所有类别上都呈现绿色。每个模型都有自己的强项和弱项,排行榜的前几名也不例外。ENFORMER在调控元件预测和TF结合上是绿色的,但在DNA甲基化和长非编码RNA上是红色的。GENOMEOCEAN系列在病毒/噬菌体任务上最亮眼,但在某些调控任务上就显得普通。植物专用模型在长非编码RNA上是绿色的,但在多数其他类别上表现平平。
研究团队对比了综合得分的两种计算方式:一种是对所有100道题取简单平均(微平均),另一种是先对13个类别各自取平均再取总平均(宏平均)。两种方式得出的模型排名高度一致,斯皮尔曼相关系数高达0.988,说明综合排行榜是稳定的。但在个别模型上,两种算法给出了差异不小的分数——差异最大的往往是那些"偏科"严重的模型,如EVO(在宏平均下损失了0.044分,因为它在12个真核类别上拖了后腿)。
这个发现对研究团队的核心论点形成了完美印证:综合排行榜可以作为参考,但绝不应该作为选择模型的唯一依据。真正理性的选择必须基于你关心的具体任务类别,去查看该类别的专项成绩。
说到底,GENEB这个项目最大的贡献不只是给出了一个排名,而是彻底改变了这个领域评估AI模型的方式。就像一个混乱已久的武林江湖,终于有了一套公认的比武规则。
归根结底,"更大的模型一定更好"的直觉在基因组AI领域并不成立。一个在正确数据上训练的小模型,往往能在实际任务中轻松击败一个在错误数据上训练的大模型。数据的覆盖范围、预训练对象与下游任务的生物学匹配程度,才是决定模型实际价值的第一要素。
而现实中让人遗憾的是,相当一部分研究团队在发布新模型时,既没有公开完整的代码,也没有稳定可用的权重文件,甚至连运行所需的硬件要求都语焉不详。GENEB调查的53个模型中,有13个(接近四分之一)因为可重复性问题无法参与测试。这提醒我们,在热情追逐更大更强的模型之外,可重复性和开放性同样是基础科学应该坚守的底线。
如果你正在从事基因组相关的研究,或者对AI如何帮助人类读懂生命密码感兴趣,强烈建议去看看这篇论文的完整附录,那里有每个模型在每道题上的详细成绩,是选模型时最可靠的参考手册。论文编号是arXiv:2606.04525v2,研究团队表示GENEB的完整评测结果将在Hugging Face平台公开发布,届时研究社区可以随时查阅和复现。
Q&A
Q1:GENEB和其他基因组AI评测基准有什么区别?
A:GENEB最核心的区别是覆盖范围和统一性。此前的基准如Nucleotide Transformer任务、GUE、BEND各自只测试少数几个模型,且评测规则不统一。GENEB将40个模型同时放在100道题上用完全一样的流程测试,是目前规模最大、最系统的基因组AI横向比较研究,能真正揭示模型间的真实差异。
Q2:MUTBERT为什么能以8600万参数击败70亿参数的EVO?
A:根本原因是预训练数据的领域错配。EVO几乎只在原核生物(细菌等)的基因组上训练,而GENEB的12个核心类别评估的是真核生物任务。原核生物没有剪接机制、甲基化机制差异极大,EVO学到的知识对这些任务帮助有限,就像让只会法语的厨师去做中餐,技艺再高也用不上。MUTBERT虽小,但专注于人类基因组,领域匹配度高得多。
Q3:少样本模式下基因组AI模型的排名为什么和全数据模式差这么多?
A:少样本条件(尤其是每类只有1个或10个样本)下,模型的排名洗牌非常剧烈,13个类别中有8个的冠军发生了更换。主要原因是不同任务的信号特征可学习性差异很大:启动子和物种分类依赖整体序列统计特征,少数样本够用;而DNA甲基化和病毒检测依赖精细的局部模式,少量样本根本无法提供足够信息。因此,如果你的实验场景数据量有限,必须单独做少样本评测,不能依赖全数据排行榜。