GWAS中的常用结果
等位基因知识回顾例如这里说的6:31,358,386 C / G位置和等位基因。C / G意思就是等位基因就是 C 或 G其中一个。一个人有两个等位基因因为有两条 6 号染色体。比如这个 SNP 位点一个人的基因型这个人有几个 C有几个 GCC2 个 C0 个 GCG1 个 C1 个 GGG0 个 C2 个 G所以C 和 G是两个可能的等位基因CC、CG、GG是一个人的基因型举个例子假设 AFAllele Frequency等位基因频率 统计的是G如果有100 个病例每人有 2 个等位基因所以总共有100 × 2 200 个字母如果AF among cases 0.39意思是这 200 个字母里约39% 是 G也就是约78 个 G。不是说“39% 的人是 CG/GG”而是说“病例组所有等位基因里G 占 39%”。同理如果AF among controls 0.071就是对照组所有等位基因里G 占 7.1%。但前提是这个 AF 统计的是G。如果原始表里写的是 effect allele C那 AF 就是在统计C 的频率。GWAS常见结果信息解释例如:TPMI PheWeb这些是一个 GWAS 位点的统计结果逐项解释如下6:31,358,386 C / G位置和等位基因。表示这个SNP在6号染色体第 31,358,386 位点观测到的两个等位基因是C 和 G【这个 SNP 位点在人群中常见的碱基有两种(C或者G)】。rsid: rs9266273这个 SNP 在 dbSNP 数据库里的编号方便查找。nearest gene: HLA-B离这个 SNP 最近的基因是HLA-B。注意最近基因不一定就是致病基因只是空间上最近。HLA 区域连锁不平衡很强要谨慎解读。P-value: 5e-324关联显著性。这个值极小说明该 SNP 和表型/疾病的统计关联非常强。GWAS 里常用阈值是约5e-8这里远远超过显著水平。Beta: 1.4 (se: 0.036)效应大小和标准误。如果是二分类疾病 GWASbeta 通常是log odds ratio。这里 beta 1.4说明携带效应等位基因会增加患病风险。换算成 OR 大约是OR ≈ e^1.4 ≈ 4.05也就是每多一个效应等位基因不知道等位基因是G还是C风险约增加到 4 倍左右【例如CC两条 6 号染色体在这个位置都是 C患病概率为1倍。CG一条 6 号染色体这个位置是 C另一条是 G患病概率为4.05倍】。se 0.036 表示 beta 的不确定性很小。AF: 0.075Allele Frequency等位基因频率。整体样本中该某个可能是C或者G要去看原始表里的effect allele、A1、tested allele等位基因频率约7.5%。AF among cases: 0.39病例组里的某个等位基因频率。病例中频率约39%。AF among controls: 0.071对照组里的某个等位基因频率。对照中频率约7.1%。这个差异非常大所以关联信号很强。AC: 48067.4Allele Count等位基因计数。表示样本中该等位基因的总计数。出现小数通常是因为使用了imputed genotype dosage不是硬性的 0/1/2 计数。Tstat: 1200检验统计量。数值越大说明关联证据越强。不同 GWAS 软件里它可能是 t statistic、score statistic 或近似 χ² 统计量所以具体定义要看原始分析软件。