news 2026/4/16 13:31:10

建模生命语言:DNA→RNA→蛋白质→细胞功能

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
建模生命语言:DNA→RNA→蛋白质→细胞功能

摘要

通用生物人工智能(GBAI)是种变革性方法,用于建模「生命语言」——即从DNA到细胞功能的信息流。本综述整合了生物人工智能领域的快速进展,旨在解析和生成DNA、RNA、蛋白质及细胞系统。勾勒出迈向综合系统的发展路径,这类系统可同时跨上述领域进行数据处理与预测,并行执行多项关键生物学任务。将语言人工智能与结构人工智能协同融合、利用专用模型及改进用于自主发现的人工智能智能体,蕴含着巨大机遇。在解决数据、生物复杂性、规模化及实验验证等方面的挑战后,GBAI有望深化对疾病通路和生物标志物的理解,推进自动化治疗设计与评估,并整合到虚拟细胞中以有效模拟生物活性。

etopol@scripps.edu

pranav_rajpurkar@hms.harvard.edu

#通用生物人工智能 #GBAI #生命语言 #多模态整合 #生物建模 #虚拟细胞 #治疗设计 #人工智能智能体

GBAI

图1GBAI愿景

编码表征可利用来自基因表达和细胞代谢不同抽象层面的多模态信息,在分子生物学中心法则的各个环节进行预测和分子设计。左栏:输入涵盖但不限于DNA、RNA、蛋白质和细胞领域。中栏:生物人工智能算法可学习建模的领域特异性过程范围。右栏:仅通过对中栏所示过程的整合多模态理解才能实现的复杂预测和设计任务。TF =转录因子;2D =二维。

结构与设计

表1代表性多任务生物人工智能模型的优势与局限概述

数字生物学的新前沿

图2生物人工智能在细胞加工不同维度的应用

生物人工智能在3个领域为数字生物学开辟了新前沿——协调专用模型的智能体人工智能工作流程(红色)、跨生物领域学习并加速科学发现的多模态编码器(蓝色)以及通过联合潜在空间建模分子活性的虚拟细胞框架(黄色)。

实现生物人工智能潜力面临的挑战

图3当前生物人工智能算法面临的挑战概述

这些挑战包括提升人工智能模型的能力,以编码更长的输入序列并创建准确的联合编码空间,扩展多模态数据的获取途径,以及最终进行稳健的体内验证。BP =碱基对;2D =二维。

框1 与生物人工智能相关的技术和概念概述

  • 反向传播(Backpropagation):训练深度学习模型的核心算法,利用微积分链式法则计算损失函数相对于模型参数的梯度。此处损失函数通常表示模型输出与其预期输出之间的某种计算差异。

  • 无监督学习(Unsupervised learning):在未标记数据上训练模型,目标是发现输入分布中的潜在结构,这在生物学某些注释稀缺但有大量原始数据可用的领域特别有用。

  • 有监督学习(Supervised learning):在输入-输出对上训练模型,目标是学习从特征到标签的映射。标记数据的存在使模型能够最小化直接量化预测误差的损失函数,这种方法非常适合生物领域的分类和回归任务。有监督学习通常在无监督学习之后使用,以适应特定任务的基础模型。

  • 卷积神经网络(Convolutional neural networks):通过一系列卷积滤波器学习特征的空间层次结构。常用于生物领域的图像模式识别任务,如显微镜和组织学分析。

  • 转换器(Transformers):最初为自然语言处理设计的基于序列的模型。处理「标记」(序列的向量化元素),并依赖称为「自注意力」的机制来建模输入中的长程依赖。在生物人工智能背景下,适用于基于序列的数据,如DNA、RNA和氨基酸。也已成功以视觉转换器的形式应用于图像,将图像表示为原始图像的较小块序列。

  • 掩码语言模型(Masked language models):语言模型的无监督学习训练方法,其中序列的部分被隐藏,必须根据上下文进行预测。这种技术允许模型在没有显式标记的数据上训练,使其能够隐式学习基础数据分布中的模式。

  • 图神经网络(Graph neural networks):直接在图结构数据上运行的深度学习模型,图结构数据由「节点」组成,节点之间通过称为「边」的关系连接。这些多连接图在生物人工智能的结构建模中特别有用。

  • 扩散模型(Diffusion models):生成模型,通过逐步向数据添加噪声直至其与随机噪声无法区分,然后训练神经网络逐步逆转此过程来学习。扩散模型可适用于生物人工智能中的生成任务,如生物分子设计。

详细总结

思维导图(mindmap)

GBAI的技术体系与代表性模型

GBAI的核心技术支柱包括语言建模、结构预测与设计、图像分析3大方向,同时需整合专用模型形成互补,各方向代表性模型的核心优势与局限:

参考

Nat Biotechnol. 2026 Mar 20. doi: 10.1038/s41587-026-03064-w.

Generalist biological artificial intelligence in modeling the language of life

260320GBAI.pdf

注:AI辅助创作,如有错误欢迎指出。内容仅供参考,不构成任何建议。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 13:28:31

从源码到镜像:手把手教你定制并容器化FastGPT开发环境

1. 为什么需要定制FastGPT开发环境? FastGPT作为一款开源的AI应用框架,官方提供的标准镜像虽然开箱即用,但实际开发中总会遇到个性化需求。比如上周我帮一家教育机构部署时,对方要求替换所有品牌标识、调整界面配色,甚…

作者头像 李华
网站建设 2026/4/16 13:27:11

从Charades到Action Genome:家庭场景行为数据集的演进与多模态理解

1. 家庭场景行为数据集的起源与挑战 十年前我刚接触计算机视觉时,行为识别领域的主流数据集还集中在体育动作、监控场景等特定领域。直到2016年Charades数据集的出现,才真正填补了家庭日常行为数据集的空白。这个由亚马逊众包平台收集的数据集&#xff0…

作者头像 李华
网站建设 2026/4/16 13:25:14

AI为何不能代替真人写作,说教再多毕竟也没有改变现实社会

哪怕无数作家、评论家反复说教,强调真人写作独一份的生命体验不可替代,现实社会的运转逻辑还是推着AI内容越来越普及:短视频的文案脚本靠AI写,自媒体的日更内容靠AI更,出版社收稿子都开始默许作者用AI做初稿润色&#…

作者头像 李华
网站建设 2026/4/16 13:23:12

Kaggle免费GPU实战:从零部署你的深度学习模型

1. 为什么选择Kaggle免费GPU? 当你用自己那台老旧的笔记本跑深度学习模型时,是不是经常遇到这样的场景:盯着进度条看了半小时,发现才跑了1%的训练进度,风扇却已经像直升机起飞一样嗡嗡作响?这时候就该试试K…

作者头像 李华
网站建设 2026/4/16 13:20:13

基于wxauto与Coze API,打造专属微信群AI助手

1. 为什么需要微信群AI助手? 最近两年AI技术发展迅猛,各种大模型层出不穷。但很多朋友发现,虽然AI很强大,但真正用起来却不太方便。比如想要在微信群里使用AI,要么得手动复制粘贴问题,要么得频繁切换应用&a…

作者头像 李华