建模生命语言：DNA→RNA→蛋白质→细胞功能-编程阁

摘要

通用生物人工智能（GBAI）是种变革性方法，用于建模「生命语言」——即从DNA到细胞功能的信息流。本综述整合了生物人工智能领域的快速进展，旨在解析和生成DNA、RNA、蛋白质及细胞系统。勾勒出迈向综合系统的发展路径，这类系统可同时跨上述领域进行数据处理与预测，并行执行多项关键生物学任务。将语言人工智能与结构人工智能协同融合、利用专用模型及改进用于自主发现的人工智能智能体，蕴含着巨大机遇。在解决数据、生物复杂性、规模化及实验验证等方面的挑战后，GBAI有望深化对疾病通路和生物标志物的理解，推进自动化治疗设计与评估，并整合到虚拟细胞中以有效模拟生物活性。

etopol@scripps.edu

pranav_rajpurkar@hms.harvard.edu

#通用生物人工智能 #GBAI #生命语言 #多模态整合 #生物建模 #虚拟细胞 #治疗设计 #人工智能智能体

GBAI

图1GBAI愿景

编码表征可利用来自基因表达和细胞代谢不同抽象层面的多模态信息，在分子生物学中心法则的各个环节进行预测和分子设计。左栏：输入涵盖但不限于DNA、RNA、蛋白质和细胞领域。中栏：生物人工智能算法可学习建模的领域特异性过程范围。右栏：仅通过对中栏所示过程的整合多模态理解才能实现的复杂预测和设计任务。TF =转录因子；2D =二维。

结构与设计

表1代表性多任务生物人工智能模型的优势与局限概述

数字生物学的新前沿

图2生物人工智能在细胞加工不同维度的应用

生物人工智能在3个领域为数字生物学开辟了新前沿——协调专用模型的智能体人工智能工作流程（红色）、跨生物领域学习并加速科学发现的多模态编码器（蓝色）以及通过联合潜在空间建模分子活性的虚拟细胞框架（黄色）。

实现生物人工智能潜力面临的挑战

图3当前生物人工智能算法面临的挑战概述

这些挑战包括提升人工智能模型的能力，以编码更长的输入序列并创建准确的联合编码空间，扩展多模态数据的获取途径，以及最终进行稳健的体内验证。BP =碱基对；2D =二维。

框1 与生物人工智能相关的技术和概念概述

反向传播（Backpropagation）：训练深度学习模型的核心算法，利用微积分链式法则计算损失函数相对于模型参数的梯度。此处损失函数通常表示模型输出与其预期输出之间的某种计算差异。
无监督学习（Unsupervised learning）：在未标记数据上训练模型，目标是发现输入分布中的潜在结构，这在生物学某些注释稀缺但有大量原始数据可用的领域特别有用。
有监督学习（Supervised learning）：在输入-输出对上训练模型，目标是学习从特征到标签的映射。标记数据的存在使模型能够最小化直接量化预测误差的损失函数，这种方法非常适合生物领域的分类和回归任务。有监督学习通常在无监督学习之后使用，以适应特定任务的基础模型。
卷积神经网络（Convolutional neural networks）：通过一系列卷积滤波器学习特征的空间层次结构。常用于生物领域的图像模式识别任务，如显微镜和组织学分析。
转换器（Transformers）：最初为自然语言处理设计的基于序列的模型。处理「标记」（序列的向量化元素），并依赖称为「自注意力」的机制来建模输入中的长程依赖。在生物人工智能背景下，适用于基于序列的数据，如DNA、RNA和氨基酸。也已成功以视觉转换器的形式应用于图像，将图像表示为原始图像的较小块序列。
掩码语言模型（Masked language models）：语言模型的无监督学习训练方法，其中序列的部分被隐藏，必须根据上下文进行预测。这种技术允许模型在没有显式标记的数据上训练，使其能够隐式学习基础数据分布中的模式。
图神经网络（Graph neural networks）：直接在图结构数据上运行的深度学习模型，图结构数据由「节点」组成，节点之间通过称为「边」的关系连接。这些多连接图在生物人工智能的结构建模中特别有用。
扩散模型（Diffusion models）：生成模型，通过逐步向数据添加噪声直至其与随机噪声无法区分，然后训练神经网络逐步逆转此过程来学习。扩散模型可适用于生物人工智能中的生成任务，如生物分子设计。