PLINK实战：用--genome参数搞定GWAS数据中的‘亲戚’排查（附pihat阈值选择心得）-编程阁

PLINK实战：用--genome参数精准识别GWAS数据中的隐性亲缘关系

引言

在基因组关联分析（GWAS）研究中，数据质量控制是确保结果可靠性的关键环节。其中，亲缘关系排查往往是最容易被忽视却又影响深远的一步。许多研究者在使用PLINK进行基础质控后，常误以为样本已经"干净"，殊不知数据中可能隐藏着未被标注的亲属关系——比如那些共享相同家族ID（FID）却未被正确标记的同胞对，或是样本收集过程中意外混入的远亲。

这类隐性亲缘关系如同数据分析中的"暗物质"，若不加以识别和排除，将导致关联分析出现假阳性结果或效应值估计偏差。本文将深入解析PLINK中--genome参数的工作原理，手把手教你如何从.genome文件中提取关键信息，并基于实际研究需求制定个性化的pihat阈值策略。不同于泛泛而谈的理论介绍，我们将聚焦三个实战场景：如何发现未标注的亲属对、如何解读IBD共享值背后的生物学意义，以及当面对"边缘亲属"（pihat≈0.2）时该如何科学决策。

1. --genome参数的核心机制与文件解析

1.1 IBD计算原理与参数选择

PLINK的--genome参数通过计算**身份血统下降（Identity by Descent, IBD）**来量化个体间的亲缘关系。其核心是分析两个个体在基因组范围内共享相同等位基因的概率。实际操作中，我们需要先通过--indep-pairwise生成一组相互独立的SNP（通常使用indepSNP.prune.in文件），以避免连锁不平衡对计算结果的影响。

典型命令如下：

plink --bfile HapMap_3_r3_10 \ --extract indepSNP.prune.in \ --genome \ --min 0.2 \ --out pihat_min0.2

这里有几个关键点需要注意：

--extract确保只使用独立SNP进行计算
--min 0.2过滤掉pihat值低于0.2的结果
输出文件.genome包含15列详细信息

1.2 .genome文件结构深度解读

用less pihat_min0.2.genome查看输出文件，其列结构如下：

列号	字段名	描述	实战意义
1-2	FID1/IID1	个体1的家族/个体ID	识别样本来源
3-4	FID2/IID2	个体2的家族/个体ID	发现FID不一致的亲属对
5	RT	推测的关系类型	验证已知关系
6	EZ	IBD期望值	理论预期参考
7-9	Z0/Z1/Z2	IBD状态概率	实际共享程度
10	PI_HAT	加权IBD比例	亲缘关系核心指标
11	PHE	表型配对	病例-对照分析参考
12	DST	IBS距离	样本相似性辅助指标
13	PPC	IBS二项检验P值	技术误差检测
14	HETHET	IBS0 SNP比例	数据质量指标

重点关注的三个核心指标：

PI_HAT：亲缘关系强度的黄金标准，计算为P(IBD=2) + 0.5*P(IBD=1)
- 同卵双胞胎≈1
- 一级亲属（父母/子女/全同胞）≈0.5
- 二级亲属（祖孙/半同胞）≈0.25
- 三级亲属≈0.125
Z值三角（Z0/Z1/Z2）：
- 异常Z值组合可能提示样本污染或分析错误
- 例如Z2异常高可能提示DNA混合
HETHET：
- 预期值为2
- 显著偏离可能提示基因分型质量问题

2. pihat阈值选择的科学依据与灵活应用

2.1 经典0.2阈值背后的统计学考量

在GWAS质控中，0.2的pihat阈值选择并非随意决定，而是基于以下科学依据：

类型I错误控制：阈值过低会增加假阳性，过高则可能遗漏真实关联
效应量估计偏差：即使中等亲缘关系也会显著影响结果
计算效率平衡：过严的阈值会导致样本量大幅减少

下表展示了不同pihat阈值对应的实际亲缘关系：

PI_HAT范围	可能关系	GWAS处理建议
0.9-1.0	同卵双胞胎/样本重复	必须去除
0.4-0.6	一级亲属	通常去除
0.2-0.4	二级亲属/远亲	根据研究设计决定
<0.2	无关个体	通常保留

2.2 阈值调整的实战策略

实际研究中可能需要灵活调整阈值：

案例1：稀有变异研究

提高阈值至0.4
因为稀有变异需要更大样本量
可通过混合模型校正残留亲缘效应

案例2：精细定位研究

降低阈值至0.1
需要更高精度的效应估计
配合使用KING等更敏感的方法

案例3：家系研究设计

专门分析高pihat个体
使用--genome --min 0.4提取核心家系
结合家系分析方法

3. 隐性亲缘关系的识别与处理流程

3.1 发现未标注的亲属对

在HapMap数据示例中，我们发现一个典型现象：

plink --bfile HapMap_3_r3_11 \ --extract indepSNP.prune.in \ --genome --min 0.2 \ --out pihat_min0.2_in_founders

检查输出文件时，可能会发现：

FID不同的个体间存在高pihat值
Z值模式符合特定亲属类型
家系记录中未标注真实关系

提示：当发现FID不一致的高pihat对时，建议回溯样本收集过程，可能是样本标注错误或意外混入亲属

3.2 科学剔除策略：呼叫率优先原则

对于必须去除的亲属对，推荐策略：

生成缺失率报告：
```
plink --bfile HapMap_3_r3_11 --missing
```
比较亲属对的缺失率：
- 保留高呼叫率（低缺失率）个体
- 去除低质量样本

创建排除列表：

vi 0.2_low_call_rate_pihat.txt # 格式：FID IID 13291 NA07045

执行剔除：

plink --bfile HapMap_3_r3_11 \ --remove 0.2_low_call_rate_pihat.txt \ --make-bed \ --out HapMap_3_r3_12

3.3 边缘案例处理技巧

当遇到pihat接近阈值（如0.18-0.22）的"边缘亲属"时：

结合其他指标综合判断：
- IBS距离
- HETHET值
- 表型相关性
敏感性分析方案：
- 分别运行包含/排除的分析
- 比较结果一致性
技术验证：
- 检查这些对的基因分型质量
- 必要时进行实验复核

4. 进阶技巧与结果验证

4.1 可视化验证技术

使用R语言对.genome文件进行可视化：

library(ggplot2) genome_data <- read.table("pihat_min0.2.genome", header=TRUE) ggplot(genome_data, aes(x=PI_HAT)) + geom_histogram(binwidth=0.02, fill="steelblue") + geom_vline(xintercept=0.2, color="red", linetype="dashed") + labs(title="PI_HAT值分布", x="PI_HAT", y="对数计数") + scale_y_log10()

常见图形解读：

双峰分布：可能存在明显的群体分层
右偏分布：样本中存在较多亲属
尖峰分布：可能提示技术问题

4.2 与其他质控步骤的协同

亲缘关系分析需要与其他质控步骤配合：

与性别检查协同：
- 性别不一致的高pihat对提示样本混淆
- 检查X染色体纯合度
与群体分层分析协同：
- 使用MDS或PCA结果
- 区分真实亲缘与群体结构
与缺失率分析协同：
- 高缺失率样本可能扭曲pihat
- 先进行基本缺失过滤

4.3 性能优化技巧

处理大型数据集时：

分染色体计算：

for chr in {1..22}; do plink --bfile data_chr${chr} \ --extract indepSNP.prune.in \ --genome --min 0.2 \ --out chr${chr}_pihat done

并行处理：

parallel -j 8 plink --bfile data_chr{} \ --extract indepSNP.prune.in \ --genome --min 0.2 \ --out chr{}_pihat ::: {1..22}

结果合并：

awk 'FNR==1 && NR!=1{next;}{print}' chr*_pihat.genome > all_pihat.genome

5. 常见问题与解决方案

5.1 技术误差与真实亲缘的区分

当出现意外的高pihat结果时，需考虑：

DNA污染：
- 检查HETHET值
- 查看Z1异常高的对
芯片批次效应：
- 按批次分组检查pihat分布
- 批次间高pihat提示技术问题
近亲群体：
- 结合PCA结果
- 检查地理来源信息

5.2 特殊研究设计的应对策略

家系研究：

使用--genome识别家系结构
采用基于家系的分析方法

病例对照研究：

特别关注病例-病例高pihat对
可能反映隐性家系聚集

纵向研究：

同一个体不同时间点的样本
预期pihat≈1（自我匹配）

5.3 替代方法与工具比较

当PLINK结果存疑时：

KING工具：
- 更适合复杂家系
- 对远亲更敏感
RELATE方法：
- 可估计更精确的亲缘系数
- 计算成本较高
SNPRelate：
- R语言实现
- 便于结果可视化

下表比较各工具特点：

工具	优势	局限	适用场景
PLINK	集成化高	对远亲敏感度低	常规GWAS质控
KING	处理复杂家系强	需要额外安装	家系研究
RELATE	精度最高	计算量大	精细分析
SNPRelate	可视化好	大数据性能一般	探索性分析