全基因组关联分析(GWAS)通过在大规模群体中比较表型与数百万个 SNP 位点的关联,定位与性状相关的基因组区域。流程看似标准,但每一步的细节都直接决定结果的真伪。本文按实际分析顺序梳理一遍,并标出最容易出错的地方。
第一步:数据质控(QC)
质控是 GWAS 最关键、也最容易被低估的一步。垃圾进、垃圾出——没做干净的质控,后面再漂亮的模型都是假阳性温床。质控分样本和位点两个层面。
样本层面
- 检出率(call rate):缺失位点过多的样本(通常 > 5% 缺失)剔除;
- 杂合率:偏离均值 ±3 个标准差的样本可能存在污染或近交,需排查;
- 性别核查:用 X 染色体杂合度推断的性别与记录不符的样本要核对,往往是样本错配的信号;
- 亲缘关系:计算 IBD/亲缘系数,对重复样本或近亲只保留一个,否则违反独立性假设。
位点层面
- 次等位基因频率(MAF):低频位点(如 MAF < 0.01)统计功效低,常规分析先过滤;
- 检出率:缺失率高的位点剔除(如 > 5%);
- 哈迪-温伯格平衡(HWE):在对照中严重偏离 HWE(如 P < 1e-6)的位点多为基因分型错误。注意只在对照样本里做,病例本身可能因关联而偏离。
# PLINK 一行完成基础质控
plink --bfile raw_data \
--maf 0.01 --geno 0.05 --mind 0.05 --hwe 1e-6 \
--make-bed --out qc_data
第二步:群体结构校正
不同亚群之间等位基因频率本就存在差异,如果病例和对照的祖先构成不均衡,会产生大量与表型无关的假关联——这就是群体分层。标准做法是用主成分分析(PCA)提取前若干个主成分,作为协变量纳入模型。
对于有亲缘结构或群体结构复杂的数据(尤其动植物群体),更稳健的是混合线性模型(MLM),用亲缘关系矩阵(kinship)同时控制群体结构和个体间亲缘,常用工具有 GEMMA、GCTA-MLMA、FaST-LMM。
第三步:关联分析与模型选择
根据表型类型选择模型:数量性状用线性回归,二分类(病例/对照)用逻辑回归。把 PCA 主成分、年龄、批次等协变量一并放进模型。
经验:人类病例-对照研究常用逻辑回归 + 前 10 个 PC;动植物数量性状群体优先用 MLM,能显著压低因亲缘导致的假阳性。
第四步:多重检验校正
同时检验数百万个位点,必须校正多重比较。GWAS 领域约定俗成的全基因组显著性阈值是 P < 5×10⁻⁸(相当于对约 100 万个独立检验做 Bonferroni 校正)。介于 5×10⁻⁸ 与 1×10⁻⁵ 之间的为提示性关联,可作为后续验证的候选。
第五步:可视化与结果解读
- Manhattan 图:横轴为染色体位置,纵轴为 -log₁₀(P)。突破显著性线的"信号塔"即候选关联区域;
- QQ 图与 λ 值:检验统计量是否整体膨胀。基因组膨胀因子 λ 接近 1 说明校正充分;λ 明显 > 1.05 提示仍存在未校正的群体分层或技术偏差;
- 候选基因定位:显著位点多落在非编码区,需结合连锁不平衡(LD)、eQTL、功能注释来锁定真正的因果基因——这也是单纯 GWAS 走向机制研究的关键一跳。
常见坑点
- 质控顺序错误(先过滤位点再过滤样本会相互影响),建议迭代做;
- 只看 P 值不看 λ,分层没校正干净却以为找到了信号;
- 把显著位点最近的基因直接当成因果基因,忽略 LD 和调控关系;
- 样本量不足时追求 5×10⁻⁸,结果一个信号都没有——此时提示性阈值 + 独立验证更现实。
GWAS 的价值不止于画出 Manhattan 图,而在于下游的精细定位与功能验证。如果你有 GWAS 数据需要从质控到候选基因的完整分析,或想把 GWAS 与 eQTL、TWAS 整合做因果推断,欢迎与我们交流。