news 2026/5/4 20:24:23

马普所:生命蛋白质宇宙聚类

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
马普所:生命蛋白质宇宙聚类

摘要

将生命之树中的数十亿蛋白质进行关联分析,仍是比较生物圈基因组学与人工智能驱动结构预测领域的核心难题。本文提出1种级联式超快速聚类方法DIAMOND DeepClust,可实现行星尺度的蛋白质空间组织,支持万亿级序列分析,同时在低序列一致性条件下保持聚类灵敏度。本研究将190亿条生物圈蛋白质序列聚为5.44亿个非单例簇,实验证明该DeepClust数据库可提升AlphaFold2的蛋白质结构预测效果。

hdrost001@dundee.ac.uk

#DIAMOND #DeepClust #蛋白质宇宙 #蛋白质序列聚类 #级联聚类 #地球生物基因组计划 #蛋白质结构预测

基准测试

1DIAMOND DeepClust、MMseqs2 与FLSHclust聚类性能基准测试

展示NCBI NR数据库(约5.46亿条蛋白质序列)的深度聚类计算基准,采用双向覆盖准则(无特殊说明时),不设置序列一致性阈值。

a) 64核服务器上,NR数据库及递增规模子样本的聚类耗时(单位:天)。

b) 与a) 一致,仅展示耗时小于1天的工具,单位:小时。

c) 基于Pfam结构域架构,压缩NCBI NR数据库时,1.5亿条注释输入序列的灵敏度与精度分布。

d) 将同一Pfam族系中不同家族视为等效时的聚类灵敏度。

e) 各工具生成的簇数量(箱线内横线为中位数;箱边为第25、75百分位数;须线为4分位距1.5倍内的极值)。

实验研究

2DIAMOND DeepClust聚类的蛋白质宇宙与现有数据库的关联特征

展示190亿条序列数据集中,簇规模≥3的代表序列在不同查询覆盖度阈值下,可基于现有数据库完成注释的比例(样本量:100万条代表序列)。

数据

190亿条蛋白质序列的聚类结果

https://objectstore.hpccloud.mpcdf.mpg.de/deepclust/index.html

代码

DIAMOND DeepClust地址

https://github.com/bbuchfink/diamond

基准测试、数据分析与绘图

https://github.com/drostlab/deepclust-data

适配ColabFold使用本实验数据库

https://github.com/drostlab/deepclust_colabfold

从Parquet文件提取序列

https://github.com/drostlab/deepclust_dataretrieval

详细总结

思维导图

性能基准测试(NCBI NR库,5.46亿序列)

参考

Nat Methods. 2026 Mar 24. doi: 10.1038/s41592-026-03030-z.

Clustering the protein universe of life using DIAMOND DeepClust

260324DeepClust.pdf

注:AI辅助创作,如有错误欢迎指出。内容仅供参考,不构成任何建议。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/12 5:27:43

数据库编程实战:从递归查询到异构数据迁移的完整解决方案

1. 递归查询实战:破解课程依赖关系网 第一次接触WITH RECURSIVE语法时,我正为在线教育平台设计课程推荐系统。平台里有门《机器学习入门》课程,竟然要求先修5门不同领域的基础课,而这些基础课本身又存在复杂的先修关系。传统JOIN查…

作者头像 李华
网站建设 2026/4/11 19:51:31

Z-Image-GGUF赋能在线教育:自动生成习题插图与知识图谱

Z-Image-GGUF赋能在线教育:自动生成习题插图与知识图谱 1. 引言 你有没有过这样的经历?深夜备课,想给一道物理题配张示意图,却发现自己画图水平停留在“火柴人”阶段;或者想给学生展示一个历史事件的场景&#xff0c…

作者头像 李华
网站建设 2026/4/12 3:37:15

万字拆解 LLM 运行机制:Token、上下文与采样参数文

springboot自动配置 自动配置了大量组件,配置信息可以在application.properties文件中修改。 当添加了特定的Starter POM后,springboot会根据类路径上的jar包来自动配置bean(比如:springboot发现类路径上的MyBatis相关类&#xff…

作者头像 李华
网站建设 2026/4/10 18:34:26

赋能开发——当通用 AI 遇见葡萄城“专属大脑”

一、 核心概念:AI 时代的厨房团队 为了让大家快速理解当下的 AI 开发模式,我们可以把日常的软件开发比作“在餐厅做一桌好菜”。在这个场景下,AI 工具链中的三个核心概念扮演着截然不同但又缺一不可的角色: 1.Agent(智…

作者头像 李华
网站建设 2026/4/12 0:34:43

3步掌握微信数据解密:本地安全解密方案的终极指南

3步掌握微信数据解密:本地安全解密方案的终极指南 【免费下载链接】WechatDecrypt 微信消息解密工具 项目地址: https://gitcode.com/gh_mirrors/we/WechatDecrypt 当微信聊天记录被加密存储在数据库中,你是否曾感到束手无策?那些珍贵…

作者头像 李华
网站建设 2026/4/10 18:33:39

3分钟快速清理:SteamCleaner游戏空间释放终极方案

3分钟快速清理:SteamCleaner游戏空间释放终极方案 【免费下载链接】SteamCleaner :us: A PC utility for restoring disk space from various game clients like Origin, Steam, Uplay, Battle.net, GoG and Nexon :us: 项目地址: https://gitcode.com/gh_mirrors…

作者头像 李华