-
全基因组关联分析
(Genome-wide
association
s tudy;GWAS)
是应用基因组中
数以百万计的单核苷酸多态性
(single nucleotide ploymorphism
,
SNP)
为分子
遗传标 记,
进行全基因组水平上的对照分析或相关性分析,
通过比较发现影响复
杂性状的基因 变异的一种新策略。
随着基因组学研究以及基因芯片技术的发展,人们已通过
GWA S
方法发现并
鉴定了大量与复杂性状相关联的遗传变异。
近年来,
这种方法在 农业动物重要经
济性状主效基因的筛查和鉴定中得到了应用。
全基因组关联方法首先 在人类医学领域的研究中得到了极大的重视和应用,
尤其是其在复杂疾病研究领域中的应用,
使 许多重要的复杂疾病的研究取得了突
破性进展,因而,全基因组关联分析研究方法的设计原理得到重视。
人类的疾病分为单基因疾病和复杂性疾病。
单基因疾病
是指由于单个基因的
突变导致的疾病,
通过
家系连锁分析的定位克隆方法
,
人们已发现了 囊性纤维化、
亨廷顿病等大量单基因疾病的致病基因,
这些单基因的突变改变了相应的编码蛋< br>白氨基酸序列或者产量,
从而产生了符合孟德尔遗传方式的疾病表型。
复杂性疾
病
是指由于遗传和环境因素的共同作用引起的疾病。
目前已经鉴定出的与人类复
杂性疾 病相关联的
SNP
位点有
439
个。
全基因组关联分析技术的重大革 新及其应
用,极大地推动了基因组医学的发展。
(
2005
年
, Science
杂志首次报道了年龄相关
性视网膜黄斑变性
GWAS
结果< br>,
在医学界和遗传学界引起了极大的轰动
,
此后一系列
GWAS
陆
续展开。
2006
年
,
波士顿大学医学院联合哈佛大学等多个 研究机构报道了基于佛明翰心脏
研究样本关于肥胖的
GWAS
结果
(Herbert
等
.
2006);2007
年
,
Saxena
等多个研究组联合报
道了与
2
型糖尿病
( T2D )
关联的多个位点
, Samani
等则发表了冠心病
GWAS
结果
( Samani
等
. 2007); 2008
年
, Barrett
等通过
GWAS
发现了
30
个与克罗恩病
( Crohns ' disrease)
相关的易感位点
; 2009
年
, W e is s
等通过
GWAS
发现了与具有高度遗传性的神经发育疾
病——自闭症关联 的染色体区域。我国学者则通过对
12
000
多名汉族系统性红斑狼疮患者
以及健康对照者的
GWAS
发现了
5
个红斑狼疮易感基因
,
并确定了
4
个新的易感位点
( Han
等
.
2009)
。截至
2009
年
10
月
,
已经陆续报道了关于人类身高、
体重、
血压等主要性状
,
以及视网膜黄斑、
乳腺癌、
前列腺癌、
白血病、
冠心病、
肥胖症、
糖尿病、
精神分
裂症、
风湿性关节炎等几十种威胁人类健康的常见疾病的
GWAS
结果
,
累计发表了近万篇
论文
,
确定了一系列疾病发病的致病基因、
相关基因、
易感区域和
SNP
变异。
)
标记基因的选择
:
1
)
Hap Map
是展示人类常见遗传变异的一个图谱
,
第
1
阶段完成后提供了
4
个人类种族
[
Yoruban
,Northern
and
Western
European
,
and
Asian
(
Chinese
and
Japanese)
]
共
269
个个体基因组
,
超过
100
万个
SNP
(
约
1 SNP / 3kb )
及连锁不平衡区域
( linkage disequilibrium, LD )
关
系的图谱。第二阶段增加了其它的人类种族数据。基于
Hap
Map
可以选
择
500 000
到
1 000 000
个覆盖全基因组的
SNP
。
2
)基因组拷贝数变异
( copy number variations ,CNV )
是
20
世纪
80
年代发现的在人类基因组中存在的 多种类型的染色体数目和结构变异。
是指与参考序列相比
,
基因组中
?
1 kb
的
DNA
片段插入、
缺失和
/
或
扩增
,
及其互相组合衍生的复杂染色体结构变异。
与
SNP
相似
,
部分
CNV
在不同人群中以不同频率分离并具有显著性差异
,
并可能影响基因表达
和表型改变
,
因此
CNV
也是一种引起疾病或增加复杂疾病发病风险的重
要遗传变异。
GWAS
采用的研究方式与传统的候选基因病例—对照
(case- control)
关联分
析一致
,
即如果人群基因组中一些
SNP
与某种疾病相关联
,
理论上这些疾病相
关
SNP
等位基因频率在某种疾病患者中应高于未患病对照人群。
动物重要经济性状即 复杂性状
GWAS
分析方法的原理是,借助于
SNP
分子遗
传标记,
进行总体关联分析,
在全基因组范围内选择遗传变异进行基因分型,
比
较异常 和对照组之间每个遗传变异及其频率的差异,
统计分析每个变异与目标性
状之间的关联性大小,
选出最相关的遗传变异进行验证,
并根据验证结果最终确
认其与目标性状之间的相关性 。
GWAS
的具体研究方法
与传统的候选基因法相类似:
1
)
单阶段方法
,即选择足够多的样本,一次性地在所有研究对象中对目标
SNP
进行基因分型,然后分析每个
SNP
与目标性状的关联,统计分析关联强度和< br>OR
值
(计算出的
OR
值等于
1
时,
则该因 素的疾病发生不起任何作用;
大于
1
时,
该因素为危险因素;小于
1
时,该因素为保护因素。)。
2
)目前
GWAS
研究主要 采用
两阶段方法
/
多阶段方法
。
第一阶段用覆盖全基因组 范围的
SNP
进行对照分析,
统计分析后筛选出较少
数量的阳性
SN P
进行。可以以个体为单位,也可以采用
DNA
pooling
的方法(后
者可大大降低及基因分型的成本和工作量)。。但是
DNA pooling
的基因分型
结果与对所有个体进行基因分型的结果仍有一定差异
, DNA pooling
估计的等位
基因频率标准差在
1 % ~ 4%
的范围
,
因而若单独以
DNApooling
来估计等位基
因频率
,
那么这种误差对全基因组的病例—对照研究的检验效能
( power of
test)
有重要影响。
第二阶段或随后的多阶段中采用更大样本的对照样 本群进行基因分型,
然后
结合两阶段或多阶段的结果进行分析。
这种设计需要保证第一 阶段筛选与目标性
状相关
SNP
的敏感性和特异性,
尽量减少分析的假阳性或 假阴性,
并在第二阶段
应用大量样本群进行基因分型验证。
结果的统计和分析
:
1
)在
GWAS
用于病例< br>-
对照研究设计时,
比较病例和对照组中每个
SNP
等位
基因频率差别多采用
4
格表的卡方检验
(
chi-square
test
)
,
并计算
OR
及其
95%
的可信区间
( confidence interval , CI) ,
归因分数
( attributable fraction , AF)
和归因危险度
( attributable risk ,
AR
);
同时需对如年龄、
性别等主要混杂因素采用
Logistic
回归分析
,
以基因型和混杂因素作为自变量
,
研究 对象患病状态为因变量进行分析。
2
)
GWAS
用于研究随机人群 的
SNP
与某一数量性状关联时
(
如身高、
体重、
血压等
)
,
主要应用单因素方差分析
(
one-way
ANOVA
)
比较
SNP
位点
3
种基因型与所研究的数量性状水平的关系
,
需要调整 混杂因素时则采用
协方差分析
( analysis o f covariance)
或线性回归
引起结果误差的主要原因有人群分层和多重假设检验调整。
无论是
GWAS
两阶段
/
多阶段设计
,
还是采用
Bonferroni
校正等遗传统计方法
,
都难以解决人群分
层及多重比 较导致的假阳性或假阴性问题。
GWAS
不能仅凭
P
值判断某个
SNP
是否与疾病真正关联
,
多种族、
多群体、
大样本的重复验证研究
(replication)
才是提高检验效能、
确保发现真正疾病关联
SNP
的关键。
【例】全基因组关联分析在乳腺癌易感位点筛选的应用
2007
年
6
月,乳腺癌关联协作组
(
Breast
Cancer
Association Consortium
,
BCAC)
首先报告了乳腺癌
GWAS
的结果,该研究共包括三个阶段
:
第一阶段
: 408
例家族性乳腺癌患者和
400
名对照,
266 722
个
SNP;
第二阶段
: 3990
例乳腺癌患者和
3916
名对照,
12 711
个
SNP;
第三阶段
: 22
例病例-对照研究,合计
21 860
例患者和
22 578
名对照,
30
个
SNP
。
研究结果最终发现了
5
个乳腺癌的易感性位点,
4
个
位于已知基因
: FGFR2 ( rs2981582)
、
TNRC9 /LOC643714
-
-
-
-
-
-
-
-
本文更新与2021-02-28 16:31,由作者提供,不代表本网站立场,转载请注明出处:http://www.xapfxb.com/yuer/462518.html