保姆级教程：用Python的Scipy库搞定基因表达数据的层次聚类与热图绘制-编程阁

基因表达数据分析实战：从矩阵到热图的层次聚类全流程解析

在生物信息学研究中，基因表达数据的聚类分析是揭示基因功能关系和样本分类模式的基础工具。想象一下，当你面对数千个基因在数十个样本中的表达量矩阵时，如何快速识别出具有相似表达模式的基因群？这正是层次聚类结合热图可视化能够直观呈现的答案。本文将手把手带你用Python的Scipy和Seaborn库，完成从原始数据到发表级热图的完整流程，特别适合需要快速产出结果的医学研究者或生物信息学入门者。

1. 数据准备与预处理

任何分析的第一步都是确保数据质量。假设我们已经通过RNA-seq技术获得了基因表达矩阵，通常以TPM或FPKM值表示。这个矩阵的行代表基因，列代表样本，每个单元格是该基因在对应样本中的表达量。

import pandas as pd import numpy as np # 模拟基因表达数据 (1000个基因 x 20个样本) gene_ids = [f"Gene_{i}" for i in range(1, 1001)] sample_ids = [f"Sample_{chr(65+i//5)}{i%5+1}" for i in range(20)] expression_data = np.random.lognormal(mean=0, sigma=1, size=(1000, 20)) df = pd.DataFrame(expression_data, index=gene_ids, columns=sample_ids) print(df.head())

数据预处理的三个关键步骤：

对数转换：基因表达数据通常呈现长尾分布，取对数可以使数据更接近正态分布
标准化：确保不同样本间的表达量可比，常用Z-score标准化
过滤低表达基因：去除在所有样本中表达量极低的基因，减少噪音

# 数据预处理流程 df_log = np.log2(df + 1) # 加1防止log(0) df_zscore = df_log.apply(lambda x: (x - x.mean())/x.std(), axis=1) # 行标准化 df_filtered = df_zscore[df_log.mean(axis=1) > 1] # 保留平均表达量>1的基因

注意：标准化方向取决于分析目标。若关注基因在不同样本中的变化模式，应对行(基因)标准化；若关注样本间的整体差异，则对列(样本)标准化。

2. 距离计算与聚类算法选择

层次聚类的核心是距离矩阵的计算。不同的距离度量会显著影响最终的聚类结果，特别是在基因表达数据分析中。

常用距离度量对比：

距离类型	公式	适用场景	计算命令
欧式距离	√∑(x_i-y_i)²	连续变量，各维度同等重要	`scipy.spatial.distance.pdist(X, 'euclidean')`
曼哈顿距离	∑	x_i-y_i
相关系数距离	1 - Pearson r	关注表达模式相似性而非绝对值	`scipy.spatial.distance.pdist(X, 'correlation')`
余弦距离	1 - cos(θ)	高维稀疏数据	`scipy.spatial.distance.pdist(X, 'cosine')`

from scipy.spatial import distance from scipy.cluster.hierarchy import linkage # 计算样本间距离矩阵 (使用相关系数距离) sample_dist = distance.pdist(df_filtered.T, metric='correlation') # 层次聚类 (使用Ward连接方法) sample_linkage = linkage(sample_dist, method='ward')

连接方法的选择指南：

Ward法：最小化簇内方差，适合欧式距离，倾向于生成大小相近的簇
完全连接：基于最远邻距离，倾向于生成紧凑的球形簇
平均连接：基于平均距离，平衡Ward和完全连接的优缺点
单连接：基于最近邻距离，可能产生"链式效应"

提示：在基因表达分析中，Ward法结合欧式距离或相关系数距离是最常见的选择。但最佳组合需要通过实际数据验证。

3. 聚类树的可视化与解读

聚类树(Dendrogram)是层次聚类结果的直观展示，能够揭示数据的分层结构。Scipy的dendrogram函数提供了丰富的自定义选项。

from scipy.cluster.hierarchy import dendrogram import matplotlib.pyplot as plt plt.figure(figsize=(10, 6)) dendrogram(sample_linkage, labels=df_filtered.columns, orientation='top', leaf_rotation=90, color_threshold=0.7*np.max(sample_linkage[:,2])) plt.title('Sample Clustering Dendrogram') plt.xlabel('Sample ID') plt.ylabel('Distance') plt.axhline(y=0.7*np.max(sample_linkage[:,2]), c='grey', lw=1, linestyle='dashed') plt.show()

关键参数解析：

color_threshold：设置颜色区分阈值，低于此值的连接用不同颜色标记
orientation：控制树的绘制方向('top','bottom','left','right')
leaf_rotation：调整叶子标签的旋转角度
truncate_mode：当样本量大时，可以截断显示简化图形

如何确定最佳聚类数：

观察树的高度变化：寻找连接距离突然增大的位置
结合轮廓系数：评估聚类紧密度和分离度
生物学意义：最终需要结合实验设计和已知生物学知识判断

from sklearn.metrics import silhouette_score # 尝试不同聚类数并计算轮廓系数 range_n_clusters = range(2, 10) silhouette_scores = [] for n_clusters in range_n_clusters: cluster_labels = cut_tree(sample_linkage, n_clusters=n_clusters).flatten() silhouette_scores.append(silhouette_score(df_filtered.T, cluster_labels)) plt.plot(range_n_clusters, silhouette_scores, 'bo-') plt.xlabel('Number of clusters') plt.ylabel('Silhouette Score') plt.title('Silhouette Analysis for Hierarchical Clustering') plt.show()

4. 热图绘制与出版级美化

热图是展示基因表达数据的黄金标准，它将数值矩阵转化为颜色编码的图像，并与聚类树结合，揭示数据中的模式。

使用Seaborn绘制高级热图：

import seaborn as sns # 对基因也进行聚类 gene_dist = distance.pdist(df_filtered, metric='correlation') gene_linkage = linkage(gene_dist, method='ward') # 创建聚类后的数据框 sample_order = dendrogram(sample_linkage, no_plot=True)['leaves'] gene_order = dendrogram(gene_linkage, no_plot=True)['leaves'] clustered_data = df_filtered.iloc[gene_order, sample_order] # 绘制热图 plt.figure(figsize=(12, 16)) sns.heatmap(clustered_data, cmap='RdBu_r', center=0, xticklabels=clustered_data.columns, yticklabels=False, # 通常隐藏基因名以避免拥挤 cbar_kws={'label': 'Z-score normalized expression'}) plt.title('Gene Expression Heatmap with Hierarchical Clustering') plt.xlabel('Samples') plt.ylabel('Genes') plt.show()

出版级热图的美化技巧：

配色方案：
- 差异表达：RdBu_r(红蓝)、bwr(蓝白红)
- 连续表达：viridis、magma、plasma

添加注释条：

# 样本分组信息 sample_groups = pd.Series(['Control']*10 + ['Treatment']*10, index=df.columns) # 创建颜色映射 group_colors = {'Control':'lightgrey', 'Treatment':'darkgrey'} row_colors = sample_groups.map(group_colors) # 绘制带注释的热图 sns.clustermap(df_filtered, row_linkage=gene_linkage, col_linkage=sample_linkage, cmap='RdBu_r', center=0, row_colors=row_colors, figsize=(12, 16))

导出高分辨率图片：

plt.savefig('heatmap.png', dpi=300, bbox_inches='tight')

常见问题解决方案：

内存不足：对于大数据集，可以先对基因进行过滤或使用随机子集
标签重叠：旋转标签(rotation=90)、缩小字体或只显示部分标签
颜色不清晰：调整vmin和vmax参数限制颜色范围

5. 高级技巧与实战建议

在实际分析中，我们经常会遇到一些特殊需求或挑战。以下是几个进阶技巧：

动态交互式热图：

import plotly.figure_factory as ff fig = ff.create_dendrogram(df_filtered.T, orientation='left', linkagefun=lambda x: linkage(x, 'ward')) fig.update_layout(width=800, height=600) fig.show()

部分基因集的热图展示：

# 选择特定通路基因 pathway_genes = ['Gene_123', 'Gene_456', 'Gene_789'] # 实际应用中从数据库获取 pathway_df = df_filtered.loc[df_filtered.index.intersection(pathway_genes)] plt.figure(figsize=(10, 6)) sns.heatmap(pathway_df, cmap='RdBu_r', center=0, annot=True, fmt=".1f") plt.title('Selected Pathway Gene Expression') plt.show()

处理批次效应：

from sklearn.decomposition import PCA # PCA检测批次效应 pca = PCA(n_components=2) pca_result = pca.fit_transform(df_filtered.T) plt.scatter(pca_result[:,0], pca_result[:,1], c=sample_groups.map({'Control':'blue', 'Treatment':'red'})) plt.xlabel('PC1 ({}%)'.format(round(pca.explained_variance_ratio_[0]*100,1))) plt.ylabel('PC2 ({}%)'.format(round(pca.explained_variance_ratio_[1]*100,1))) plt.title('PCA Plot to Check Batch Effect') plt.show()

性能优化技巧：