AI 药物重定位:GraphRAG 让黑箱模型说人话
目录
- 研究者将知识图谱嵌入与大语言模型结合,为药物重定位预测提供可解释的推理路径,让 AI 的「为什么」不再是秘密。
- 蛋白语言模型并非黑箱,它们能学习到抗体的关键生物学特征,而理解其内在偏见,能帮我们打造更强大的抗体药物发现工具。
- 这款专为冷冻电镜设计的去噪扩散模型,通过精准去除图像噪声,让我们能以前所未有的清晰度,捕捉到蛋白质复杂多变的动态构象。
- ImmunoNX 将自动化计算与专家人工审核结合,打造了一个经过临床验证的、能在三个月内交付高质量新抗原候选物的可靠流程。
- 研究者用机器学习模型成功定位了人类基因组中容易发生断裂和重排的「热点区域」,证明 DNA 的局部序列本身就隐藏着决定其稳定性的关键线索。
1. AI 药物重定位:GraphRAG 让黑箱模型说人话
在药物研发领域,我们总是在信息的海洋里捞针。数据很多,从基因到疾病再到化合物,关系错综复杂。药物重定位(Drug Repurposing),也就是老药新用,是条捷径,但挑战在于如何高效地发现药物和新适应症之间的潜在联系。传统的计算方法常常像个黑箱,给你一个「可能有效」的答案,但你问它为什么,它就沉默了。这对于需要严谨验证的科学家来说,是完全不够的。
这项研究拿出的方案,就像是给这个黑箱装上了一个透明的观察窗。
它的工作原理是这样的:
第一步,打好地基。研究者使用了药物重定位知识图谱(DRKG),这个图谱就像一张巨大的生物学关系网,包含了药物、基因、疾病等实体以及它们之间的各种联系。然后,他们用一种叫做 TransE 的算法,把这张复杂的网络「嵌入」到一个数学空间里。你可以把它想象成一个星系图,每个实体(比如一个药物或一个疾病)都是一颗星星,它们之间的关系决定了它们在星系中的位置。如果两个星星在空间中离得很近,就说明它们在生物学上可能有很强的关联。这个过程是预先计算好的,所以后续的查询速度非常快。
第二步,从「是什么」到「为什么」。当用户用自然语言输入一个疾病,比如「阿尔茨海病」,系统会先利用前面训练好的嵌入向量,快速在「星系图」中找到与这个疾病「距离」最近的那些药物分子。这是第一层筛选,它告诉你哪些药物值得关注。
但接下来的部分才是整个系统真正的亮点:图谱检索增强生成(GraphRAG)。对于每个筛选出的候选药物,系统不再仅仅满足于一个「距离」分数。它会回到最初的知识图谱中,主动寻找连接这个药物和目标疾病的最短、最相关的路径。比如,它可能会找到这样一条路径:「药物 A -> 抑制 -> 蛋白 X -> 参与 -> 信号通路 Y -> 关联 -> 阿尔茨海默病」。
最后一步,让大语言模型(LLM)登场。系统将找到的这些路径信息,交给 GPT 这样的大语言模型。LLM 的任务就像一个专业的科学翻译,把这些节点和连接组成的干巴巴的路径,转换成一段流畅、可读的自然语言解释。它会告诉你,根据知识图谱的数据,这款药物可能是通过影响哪个特定的靶点或通路,来对该疾病产生潜在治疗效果的。
整个流程下来,你得到的不仅仅是一个药物列表,而是每个建议背后都有一个清晰、可追溯的生物学故事。这对于研发科学家来说,价值巨大。因为它把一个纯粹的计算结果,变成了一个可以拿到实验室去验证的科学假设。你还可以根据它提供的解释,去判断这个逻辑链条的强弱,决定下一步的实验方向。
当然,这个系统也并非完美。它的知识库是基于预训练的 DRKG 嵌入,这意味着知识是静态的。如果昨天刚发表了一篇重磅论文,更新了某个靶点信息,这个模型是不知道的,除非你花费巨大的计算资源去重新训练整个嵌入模型。此外,它依赖于 OpenAI 的 API,这在成本和数据隐私方面也是需要考量的因素。
尽管如此,这个方向是令人兴奋的。它展示了一种让 AI 不仅成为预测工具,更成为研究伙伴的可能。它让 AI 的思考过程变得透明,帮助我们更快地从海量数据中提炼出有价值的洞见。
📜Title: Deep Learning-Based Drug Repurposing Using Knowledge Graph Embeddings and GraphRAG
🌐Paper: https://www.biorxiv.org/content/10.64898/2025.12.08.693009v1
2. 蛋白语言模型如何「看」抗体?解构 AI 偏见
做药物研发,我们经常会想,AI 模型到底是真的「理解」了生物学,还是仅仅在做高级的模式匹配?最近一篇论文就深入研究了这个问题,把几个主流的蛋白语言模型 (Protein Language Models, PLMs) 放在一起,看看它们是如何「看待」抗体序列的。
你可以把蛋白序列看作一种语言,氨基酸就是字母。蛋白语言模型的工作,就像大语言模型处理人类语言一样,是去学习这种语言的语法和语义。
研究者选了几个模型:有专为抗体设计的 AntiBERTa,也有像 ESM2 和 BioBERT 这样的通用蛋白模型。他们给这些模型一个任务:通过抗体序列预测它会结合哪种抗原。
结果显示,所有模型在预测准确率上都做得很好。但这只是表面。关键的问题是,它们是怎么做出判断的?
为了搞清楚这一点,研究者用了一种叫「注意力归因」的技术。这就像打开模型的引擎盖,看看它在运转时,哪些零件(氨基酸残基)最受关注。
他们发现,专攻抗体的 AntiBERTa 模型,其注意力天然就集中在互补决定区 (Complementarity-Determining Regions, CDRs)。这完全符合生物学常识。因为 CDRs 就是抗体与抗原结合的关键区域,相当于钥匙上与锁匹配的那些齿。
相比之下,ESM2 这种通用模型,它的注意力就分散一些,没有那么聚焦。这也很容易理解,因为它被训练用来处理各种各样的蛋白,而不仅仅是抗体。
于是,研究者们做了一个实验:他们在训练通用模型时,有意识地引导它们去关注 CDR 区域,特别是决定了大部分特异性的 CDR3。
这个操作很简单,但效果很好。ESM2 和 BioBERT 的性能立刻有了大幅提升。这告诉我们一个重要的道理:将生物学领域的先验知识(比如「CDRs 很重要」)整合到模型训练中,是一种高效提升模型表现的策略。这就像给一个通才一份清晰的工作简报,告诉他解决这个特定问题需要重点关注哪里。
这篇工作里还有一个更让人兴奋的发现。即使没有经过专门训练,这些模型也能从序列数据中捕捉到更深层次的生物学信息。比如,它们能隐约「感知」到抗体的 V 基因来源、体细胞高频突变 (somatic hypermutation) 的模式,甚至是抗体的亚型 (isotype)。
这说明模型不只是在死记硬背。它在学习序列模式的过程中,自己构建了一套能够反映抗体生物学本质的内部表征。这就像一个孩子通过大量阅读,不仅认识了字词,还逐渐领悟了语法、修辞和作者风格。
对于做药的人来说,这项研究的价值在于,它证明了蛋白语言模型不只是个黑箱预测工具。它是一个可以被理解、被引导、甚至能反过来帮助我们发现新生物学规律的强大伙伴。通过理解不同模型的架构偏差,我们可以为特定任务选择最合适的模型,并通过注入领域知识来让它变得更聪明。
📜Title: Exploring Protein Language Model Architecture-Induced Biases for Antibody Comprehension
🌐Paper: https://arxiv.org/abs/2512.09894
’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
3. CryoDDM:AI 让冷冻电镜看清蛋白质动态细节
’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
做结构生物学,尤其是冷冻电子显微镜(Cryo-EM)的,都懂一个道理:原始数据就是一切。
你拿到的那些显微照片,本质上是在一片嘈杂的雪花中寻找蛋白质的微弱身影。如果把这些照片直接叠加,任何构象上的动态变化都会被平均掉,最后只得到一团模糊的影像。这就好比你想看清一个人在跳舞,却只能把他的所有舞姿叠在一张底片上,结果什么也看不清。
传统的去噪方法,往往像个用力过猛的滤镜,要么去不干净,要么连同有用的高频结构信息(high-frequency structural information)一起抹掉了。这对研究蛋白质的构象异质性(conformational heterogeneity)是致命的,因为那些最有趣的生物学故事,恰恰藏在这些精细的动态变化里。
现在,这篇文章提出的 CryoDDM,给我们提供了一个新思路。它用的是目前很火的去噪扩散模型(denoising diffusion model)。你可以这么理解这个模型的工作原理:它先学习如何把一张清晰的蛋白质图像,一步步变成完全无序的噪声;然后,它再反过来学习如何从一堆噪声中,一步步把清晰的图像「还原」出来。通过这个过程,模型就学会了什么是真正的「信号」,什么是应该被丢弃的「噪声」。
CryoDDM 的聪明之处在于,它没有直接套用为普通图像设计的模型。研究者们发现,冷冻电镜图像的噪声分布很特殊,不能简单用标准的高斯噪声(Gaussian noise)来假设。于是,他们设计了一个两阶段的扩散过程。第一阶段,模型先进行一个快速、粗略的去噪,把最明显的大块噪声干掉。第二阶段,再进行精细调整,专门处理那些与蛋白质结构信号混杂在一起的细微噪声。这样做有两个好处:第一,去噪效果更好,因为它更懂冷冻电镜数据的「脾气」;第二,计算效率更高,因为它优化了扩散步骤,不用跑那么多冗余的计算。
结果怎么样?作者用好几个硬骨头来测试它。比如,他们用 CryoDDM 处理了一个蛋白酶体(proteasome)、一个膜蛋白和一个刺突蛋白(spike protein)的数据。这些都是出了名的构象复杂、动态变化丰富的体系。结果显示,经过 CryoDDM 处理后,下游的颗粒挑选和 3D 分类工作都变得轻松多了。软件能更准地从照片中把蛋白质颗粒「捡」出来,也能更清晰地把它们分成不同的构象状态。最终,他们成功解析出了之前被噪声淹没、从未被观察到的构象状态和动态细节。
这对做药物发现的人来说,意义重大。很多时候,药物靶点并不是一个僵硬的静态结构,而是在不同构象之间动态变化的。一个变构口袋(allosteric pocket)可能只在某个短暂存在的构象中才会出现。如果你的技术只能看到一个模糊的平均结构,你就会错过这个绝佳的成药机会。CryoDDM 这种工具,相当于给我们配了一副更高清的眼镜,让我们能看清蛋白质工作时的「慢动作」,从而发现新的靶点和药物设计机会。
📜Title: CryoDDM: CryoEM denoising diffusion model for heterogeneous conformational reconstruction
🌐Paper: https://www.biorxiv.org/content/10.64898/2025.12.10.693455v1
’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
4. ImmunoNX:经临床验证的个性化疫苗设计引擎
’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
在个性化癌症疫苗这个领域,我们总是在和时间赛跑。从拿到患者的肿瘤样本,到设计出只针对他体内癌细胞的疫苗,整个过程既要快,又要准。找到那些能被免疫系统识别为「非我」的肿瘤特有突变,也就是新抗原 (Neoantigen),就像在大海里捞一根特定的针。这不仅是个计算问题,更是个生物学问题。
最近,一篇介绍 ImmunoNX 的文章引起了我的注意。这不只是又一个新算法,而是一个完整的、端到端的生物信息学工作流。更重要的是,它不是停留在理论层面,而是已经在 11 个临床试验、超过 185 名患者身上得到了实战检验。对于做研发的人来说,「实战过」这三个字的分量,比任何花哨的性能指标都重。
它是怎么工作的?
整个流程的设计思路很清晰,就是把复杂的事情自动化,但把关键的决策点留给人。
首先,他们把所有计算都搬到了云上。研究者使用了工作流定义语言 (Workflow Definition Language, WDL) 在谷歌云平台上搭建了整个流程。这意味着什么?这意味着可重复性和可扩展性。不管你处理一个样本还是几百个样本,流程都是一致的,结果也是可靠的,不会因为计算环境不同而出错。这对于要求严谨的临床试验来说是基础。
流程的第一步是处理原始测序数据。他们同时分析肿瘤的 DNA/RNA 和患者的正常组织 DNA。通过对比,找出肿瘤独有的基因突变。这里他们用了一个很策略:共识调用 (consensus-based variant calling)。他们同时使用多种不同的算法来寻找突变,只保留那些被多个算法一致认可的结果。这就像一个会诊,多位专家都点头了,这个诊断才算可靠,大大减少了假阳性。
人工审核:算法的「安全带」
找到了突变,下一步就是预测这些突变产生的蛋白片段能否被患者的免疫系统(也就是 HLA 分子)呈递,并激活 T 细胞。这是新抗原预测的核心。ImmunoNX 同样集成了多种预测算法来做这件事。
但让我欣赏的,是他们没有止步于此。计算预测出的候选名单,会进入一个两阶段的、严格的人工审核流程。
第一阶段,研究者使用 pVACview 这个工具进行可视化初审。这能帮助他们快速过滤掉一些明显不靠谱的候选物。
第二阶段,也是最关键的一步,他们会回到最原始的数据,用 IGV (Integrative Genomics Viewer) 这个软件,一个一个地去检查那些最有希望的候选新抗原。审核的科学家会亲眼查看支持这个突变的测序读数 (reads) 是否足够多、质量是否足够好,以及这个突变对应的基因在 RNA 层面有没有真实表达。
这一步是无法被算法完全替代的。它确保了最终被选入疫苗的每一个新抗原,背后都有扎实的原始数据支持。这既是对疗效的保证,也是对患者安全的负责。可以说,这个人工审核环节,是整个流程的「安全带」和「质量阀」。
速度和开放性
ImmunoNX 最吸引人的地方之一,是它能在三个月内完成整个疫苗设计流程。在个性化治疗中,时间就是生命。能把周期缩短到这个程度,意味着患者能更早地接受治疗,临床试验的推进也会快得多。
研究者还将整个流程、代码、文档和示例数据全部开源。这意味着全球任何一个实验室,只要有相应的计算资源,都可以复现、使用甚至改进这个流程。这种开放的态度,对于推动整个个性化癌症疫苗领域的发展,价值巨大。它不再是一个少数几家公司的「黑匣子」技术,而是变成了整个科学界可以共同使用的工具。
ImmunoNX 提供了一个非常务实的解决方案。它没有追求某个单一算法的极致,而是构建了一个稳健、高效、自动化与人工监督相结合的完整系统。对于致力于将前沿科学转化为药物的人来说,这种经过实践检验的可靠工具,远比一个理论上完美的算法更有价值。
📜Title: ImmunoNX: A Robust Bioinformatics Workflow to Support Personalized Neoantigen Vaccine Trials
🌐Paper: https://arxiv.org/pdf/2512.08226v1.pdf
’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
5. AI 预测基因组「断点」:机器学习揭示结构变异的序列密码
’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
我们的基因组并不是一条静态不变的 DNA 长链,它会断裂、删除、重复或重新排列。这些大规模的改变,我们称之为结构变异 (Structural Variants, SVs),是许多遗传病的根源。长期以来,预测这些变异会在基因组的哪个位置发生,就像预测地震一样困难。我们知道有些区域比其他区域更「脆弱」,但具体是什么决定了这一点,一直没有清晰的答案。
这项新研究提供了一个全新的视角。研究者们训练了两种机器学习模型来「阅读」基因组,并找出那些潜在的不稳定区域。
第一种是卷积神经网络 (Convolutional Neural Network, CNN)。你可以把它想象成一个图像识别专家。就像 CNN 能在照片中认出猫的轮廓一样,它在这里直接扫描原始的 A, T, C, G 序列,学习并识别那些预示着「不稳定」的特定序列模式。
第二种是随机森林 (Random Forest) 模型。这个模型更像一个经验丰富的老专家,它看的不是孤立的序列,而是综合性的「上下文」。它会考量一个区域的基因密度、已知的调控元件以及其他各种基因组注释信息,做出综合判断。
真正的突破在于将两者结合。CNN 负责从底层挖掘原始序列中的细微线索,而随机森林则负责从高层整合全局特征。当这两种视角互补,预测 SV 发生的准确率超过了 90%。这是一个巨大的进步,意味着我们离真正理解基因组的「断点规则」又近了一步。
更让我兴奋的是,这并非一个无法解释的「黑箱」。通过分析模型学到了什么,研究者们验证并发现了一些导致基因组不稳定的生物学机制。比如,模型确认了「微同源序列」(短小的重复片段)是断裂修复时出错的高发地。
它还特别指出了 G-四链体 (G-quadruplexes) 这类非经典 DNA 结构的作用。你可以把 G-四链体想象成 DNA 单链自己打成的一个「结」。在细胞进行 DNA 复制时,解开这种「结」会很麻烦,从而增加了出错和断裂的风险。模型准确地捕捉到了这个特征,将这些 DNA 上的「疙瘩」标记为潜在的麻烦制造者。
这些发现不只是理论上的。模型的预测结果与真实世界的人群数据高度相关。那些被模型预测为 SV 高发的热点区域,在不同人群的基因组中确实表现出更高的变异频率。这说明模型抓住了驱动基因组演化的真实生物学规律。
这个工具的应用前景很广。在药物研发中,如果一个靶点基因恰好位于一个 SV 热点区域,它的稳定性和表达量就可能存在个体差异,这会影响药物的有效性。在个性化医疗领域,未来或许可以利用这个模型评估特定个体基因组的稳定性,从而预测其患上某些遗传病的风险。
简单来说,作者们开发出了一张描绘我们 DNA「地震风险」的精密地图。它不仅告诉我们哪里可能「塌陷」,还解释了背后的原因。
📜Title: Machine Learning-Based Prediction of Human Structural Variation and Characterization of Associated Sequence Determinants
🌐Paper: https://www.biorxiv.org/content/10.64898/2025.12.09.693295v1