news 2026/4/16 15:30:42

WGCNA分析-生物信息学机器学习研究方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
WGCNA分析-生物信息学机器学习研究方法

1.概念

解释:WGCNA分析,中文全称即是加权基因共表达网络分析。该分析方法旨在是寻找协同表达的基因模块,并且去找基因网络和关注的表型之间的联系,以及网络中的核心基因。简单说即用于描述不同样本中基因相关性的模式

实例:例如在之前寻找生姜和胃癌的治疗靶点的时候,利用WGCNA去寻找胃癌差异性表达基因和生姜核心成分的基因寻找出二者的相关性强的的基因模块(一组表达相关性较为强的基因组)

2.原理和方法

2.1首先获得基因相关性表达矩阵


其中第一列为样本名称,第一行是基因名称,将该所有样本的基因表达情况进行相关性的计算,获得相关性表达矩阵表

其中相关性表达矩阵表格中,例如RPS4Y1基因和自身的相关性为1,大于零为正相关,而小于零为负相关,构建完成相关性表达矩阵后就可以利用WGCNA去构建相关性表达网络

2.2相关性网络(需要构建什么样的网络?)

在网络中,节点代表基因,线代表相关性。如上图两种网络当中,我们要构建的的是无尺度网络,该网络服从幂律分布,即少数的节点的连接数较高,大部分节点连接数较低。而不是随机网络,该网路服从正态分布,即大多数节点的连接数较高,而少部分的连接数较低。原因是,在生物体内只有少数蛋白质或者基因参与大量的相互作用,形成信号枢纽的作用,无尺度网络中连接度较高的节点,即是我们研究的重点,其作为枢纽作用,研究价值更高。假如在随机网络中,是大多数蛋白质都参与大量的相互作用,这样的话不就成混乱体系了吗?

2.3选择合适的软阈值(Power,判断基因是否具有相关性阈值)

2.3.1软阈值和硬阈值的区别差异

为了衡量两个基因是否具有相似表达模式,一般需要设置阈值来进行筛选,高于阈值就认为是相似的,但是这种设置阈值的方法存在问题,假如设定阈值为0.8,那么基因间相关性为0.81和0.79很难说明是有显著差异的,即无法区分。这种设置阈值的方法称为硬阈值

为了解决上述难以区分显著差异的问题,因此WGCNA分析时,采用相关系数加权值,即对基因相关系数取N次幂,这样计算出的是基因相关性的权重大小,我们只需要选取合适的N次幂即可,这种设置阈值的方法称为软阈值。

其中硬阈值是简单二元化的“有无”关系,这种方法是一刀切的筛选,大于设定阈值就符合否则就不符合。这样分析出的结果更趋近于正态分布,构建的网络也更趋近于随机网络是不符合生物学规律的。而软阈值则是连续的“权重关系”,而非单纯的“有无”,这样分享出的结果更符合幂律分布,构建出的网络更符合无尺度网络,因为幂次运算会放大强相关的边,而弱化弱相关,如相关性0.9取幂次后更接近1,而0.5则更接近0,使富者更富,贫者更贫,这样就会符合幂律分布,而硬阈值一刀切的方式,使得分布更随机。

2.3.2软阈值的筛选

挑选出合适的软阈值

图一:无尺度拓扑拟合图,纵轴为拟合优度,横轴为Power值,拟合优度越趋近于1证明构成的网络越趋近于无尺度网络。

图二:平均连接度图,纵轴为平均连接度,横轴为Power值,在Power值增加的情况下,平均连接度会降低

判断软阈值的方法一般是根据这两个核心图来判断所需要的Power值,图一为无尺度拓扑拟合图,图二为平均连接度图。判断Power值的时候需要根据两个图一起判断,根据图一中的Power值与无尺度网络拟合度(R²)越高,但必须注意对应Power值对应在图二中的平均连接度不能太低。两者必须结合。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/13 13:00:26

【咸鱼RK3399】网络摄像头

咸鱼RK3399网络摄像头 (1)缘起 搞完了casaos的轻NAS和内网穿透发现,这个rk3399的cpu利用率只有3%,就像继续琢磨搞点啥,然后逛咸鱼看到了个USB摄像头免驱的,因此打算打算搞一个网络摄像头,一查刚…

作者头像 李华
网站建设 2026/4/16 10:40:19

御享臻品开展“千村赞助”公益行,助力乡村构筑健康生活圈

随着“健康中国”战略的深入推进,全民健身已从城市潮流渗透到社会生活的各个角落。在城市,智能健身步道、24小时健身房早已不是新鲜事物;但在许多乡村地区,“想锻炼没器材,有想法没场地”仍是制约村民参与全民健身的现实困境。为打破这一壁垒,始终以“推广健康生活理念、助力全…

作者头像 李华
网站建设 2026/4/16 12:44:40

30 段速三菱 PLC 程序在橡筋机生产线的实践与分享

30段速三菱PLC程序个人用于橡筋机生产线 程序内有伺服与变频的相关运用,十分适合PLC爱好者学习! 内容包括:1.三菱PLC程序2.维控触摸屏程序3.电气原理图4.运用到的伺服和变频的说明书嘿,PLC 爱好者们!今天来给大家分享一…

作者头像 李华
网站建设 2026/4/16 6:17:22

三步锁定最佳技术伙伴?解析APP开发公司的三大合作模式

在数字化转型的关键阶段,选择一家合适的合作伙伴来打造应用程序,是企业面临的战略决策。市场上APP开发公司繁多,但按其核心商业模式与交付物,可主要划分为三大类型:软件定制开发服务商、垂直技术型服务商与标准化SaaS服…

作者头像 李华
网站建设 2026/4/5 10:54:00

好写作AI|没人明说的“学术潜规则”,正在被AI悄悄翻译给你

导师看完你的初稿,叹气道:“你这写得…不像学术论文。” 你连夜重读文献,字都认识,道理也懂。但到底什么叫“像”?那个说不清道不明的“学术感”,到底藏在哪里?每个学术新手都经历过这种“神秘的…

作者头像 李华
网站建设 2026/4/16 13:29:25

吐血推荐10个AI论文软件,继续教育学生轻松搞定毕业论文!

吐血推荐10个AI论文软件,继续教育学生轻松搞定毕业论文! AI 工具助力论文写作,让学术之路更轻松 在当前的继续教育环境中,越来越多的学生面临毕业论文的压力。无论是本科、硕士还是博士阶段,撰写一篇高质量的论文不仅…

作者头像 李华