GWAS 全基因组关联分析全流程：从质控到 Manhattan 图

全基因组关联分析（GWAS）通过在大规模群体中比较表型与数百万个 SNP 位点的关联，定位与性状相关的基因组区域。流程看似标准，但每一步的细节都直接决定结果的真伪。本文按实际分析顺序梳理一遍，并标出最容易出错的地方。

第一步：数据质控（QC）

质控是 GWAS 最关键、也最容易被低估的一步。垃圾进、垃圾出——没做干净的质控，后面再漂亮的模型都是假阳性温床。质控分样本和位点两个层面。

# PLINK 一行完成基础质控
plink --bfile raw_data \
      --maf 0.01 --geno 0.05 --mind 0.05 --hwe 1e-6 \
      --make-bed --out qc_data

不同亚群之间等位基因频率本就存在差异，如果病例和对照的祖先构成不均衡，会产生大量与表型无关的假关联——这就是群体分层。标准做法是用主成分分析（PCA）提取前若干个主成分，作为协变量纳入模型。

对于有亲缘结构或群体结构复杂的数据（尤其动植物群体），更稳健的是混合线性模型（MLM），用亲缘关系矩阵（kinship）同时控制群体结构和个体间亲缘，常用工具有 GEMMA、GCTA-MLMA、FaST-LMM。

根据表型类型选择模型：数量性状用线性回归，二分类（病例/对照）用逻辑回归。把 PCA 主成分、年龄、批次等协变量一并放进模型。

经验：人类病例-对照研究常用逻辑回归 + 前 10 个 PC；动植物数量性状群体优先用 MLM，能显著压低因亲缘导致的假阳性。

同时检验数百万个位点，必须校正多重比较。GWAS 领域约定俗成的全基因组显著性阈值是 P < 5×10⁻⁸（相当于对约 100 万个独立检验做 Bonferroni 校正）。介于 5×10⁻⁸ 与 1×10⁻⁵ 之间的为提示性关联，可作为后续验证的候选。

Manhattan 图：横轴为染色体位置，纵轴为 -log₁₀(P)。突破显著性线的"信号塔"即候选关联区域；
QQ 图与 λ 值：检验统计量是否整体膨胀。基因组膨胀因子 λ 接近 1 说明校正充分；λ 明显 > 1.05 提示仍存在未校正的群体分层或技术偏差；
候选基因定位：显著位点多落在非编码区，需结合连锁不平衡（LD）、eQTL、功能注释来锁定真正的因果基因——这也是单纯 GWAS 走向机制研究的关键一跳。

GWAS 的价值不止于画出 Manhattan 图，而在于下游的精细定位与功能验证。如果你有 GWAS 数据需要从质控到候选基因的完整分析，或想把 GWAS 与 eQTL、TWAS 整合做因果推断，欢迎与我们交流。