GWAS 全基因组关联分析全流程:从质控到 Manhattan 图

← 返回技术干货

全基因组关联分析(GWAS)通过在大规模群体中比较表型与数百万个 SNP 位点的关联,定位与性状相关的基因组区域。流程看似标准,但每一步的细节都直接决定结果的真伪。本文按实际分析顺序梳理一遍,并标出最容易出错的地方。

第一步:数据质控(QC)

质控是 GWAS 最关键、也最容易被低估的一步。垃圾进、垃圾出——没做干净的质控,后面再漂亮的模型都是假阳性温床。质控分样本和位点两个层面。

样本层面

  • 检出率(call rate):缺失位点过多的样本(通常 > 5% 缺失)剔除;
  • 杂合率:偏离均值 ±3 个标准差的样本可能存在污染或近交,需排查;
  • 性别核查:用 X 染色体杂合度推断的性别与记录不符的样本要核对,往往是样本错配的信号;
  • 亲缘关系:计算 IBD/亲缘系数,对重复样本或近亲只保留一个,否则违反独立性假设。

位点层面

  • 次等位基因频率(MAF):低频位点(如 MAF < 0.01)统计功效低,常规分析先过滤;
  • 检出率:缺失率高的位点剔除(如 > 5%);
  • 哈迪-温伯格平衡(HWE):在对照中严重偏离 HWE(如 P < 1e-6)的位点多为基因分型错误。注意只在对照样本里做,病例本身可能因关联而偏离。
# PLINK 一行完成基础质控
plink --bfile raw_data \
      --maf 0.01 --geno 0.05 --mind 0.05 --hwe 1e-6 \
      --make-bed --out qc_data

第二步:群体结构校正

不同亚群之间等位基因频率本就存在差异,如果病例和对照的祖先构成不均衡,会产生大量与表型无关的假关联——这就是群体分层。标准做法是用主成分分析(PCA)提取前若干个主成分,作为协变量纳入模型。

对于有亲缘结构或群体结构复杂的数据(尤其动植物群体),更稳健的是混合线性模型(MLM),用亲缘关系矩阵(kinship)同时控制群体结构和个体间亲缘,常用工具有 GEMMA、GCTA-MLMA、FaST-LMM。

第三步:关联分析与模型选择

根据表型类型选择模型:数量性状用线性回归,二分类(病例/对照)用逻辑回归。把 PCA 主成分、年龄、批次等协变量一并放进模型。

经验:人类病例-对照研究常用逻辑回归 + 前 10 个 PC;动植物数量性状群体优先用 MLM,能显著压低因亲缘导致的假阳性。

第四步:多重检验校正

同时检验数百万个位点,必须校正多重比较。GWAS 领域约定俗成的全基因组显著性阈值是 P < 5×10⁻⁸(相当于对约 100 万个独立检验做 Bonferroni 校正)。介于 5×10⁻⁸ 与 1×10⁻⁵ 之间的为提示性关联,可作为后续验证的候选。

第五步:可视化与结果解读

  • Manhattan 图:横轴为染色体位置,纵轴为 -log₁₀(P)。突破显著性线的"信号塔"即候选关联区域;
  • QQ 图与 λ 值:检验统计量是否整体膨胀。基因组膨胀因子 λ 接近 1 说明校正充分;λ 明显 > 1.05 提示仍存在未校正的群体分层或技术偏差;
  • 候选基因定位:显著位点多落在非编码区,需结合连锁不平衡(LD)、eQTL、功能注释来锁定真正的因果基因——这也是单纯 GWAS 走向机制研究的关键一跳。

常见坑点

  • 质控顺序错误(先过滤位点再过滤样本会相互影响),建议迭代做;
  • 只看 P 值不看 λ,分层没校正干净却以为找到了信号;
  • 把显著位点最近的基因直接当成因果基因,忽略 LD 和调控关系;
  • 样本量不足时追求 5×10⁻⁸,结果一个信号都没有——此时提示性阈值 + 独立验证更现实。

GWAS 的价值不止于画出 Manhattan 图,而在于下游的精细定位与功能验证。如果你有 GWAS 数据需要从质控到候选基因的完整分析,或想把 GWAS 与 eQTL、TWAS 整合做因果推断,欢迎与我们交流。

需要 GWAS 分析支持?

从质控、关联分析到候选基因精细定位,提供全流程方案与结果解读

免费咨询方案 →