关键词不能为空

当前您在: 首页 > 育儿 >

全基因组关联分析的原理和方法

作者:陕西保健网
来源:http://www.xapfxb.com/yuer
更新日期:2021-02-28 16:31

-

2021年2月28日发(作者:糖尿病食疗偏方)
全基因组关联分析
(Genome-wide
association
s tudy;GWAS)
是应用基因组中
数以百万计的单核苷酸多态性
(single nucleotide ploymorphism

SNP)
为分子
遗传标 记,
进行全基因组水平上的对照分析或相关性分析,
通过比较发现影响复
杂性状的基因 变异的一种新策略。

随着基因组学研究以及基因芯片技术的发展,人们已通过
GWA S
方法发现并
鉴定了大量与复杂性状相关联的遗传变异。
近年来,
这种方法在 农业动物重要经
济性状主效基因的筛查和鉴定中得到了应用。

全基因组关联方法首先 在人类医学领域的研究中得到了极大的重视和应用,
尤其是其在复杂疾病研究领域中的应用,
使 许多重要的复杂疾病的研究取得了突
破性进展,因而,全基因组关联分析研究方法的设计原理得到重视。

人类的疾病分为单基因疾病和复杂性疾病。
单基因疾病
是指由于单个基因的
突变导致的疾病,
通过
家系连锁分析的定位克隆方法

人们已发现了 囊性纤维化、
亨廷顿病等大量单基因疾病的致病基因,
这些单基因的突变改变了相应的编码蛋< br>白氨基酸序列或者产量,
从而产生了符合孟德尔遗传方式的疾病表型。
复杂性疾

是指由于遗传和环境因素的共同作用引起的疾病。
目前已经鉴定出的与人类复
杂性疾 病相关联的
SNP
位点有
439
个。
全基因组关联分析技术的重大革 新及其应
用,极大地推动了基因组医学的发展。

2005

, Science
杂志首次报道了年龄相关
性视网膜黄斑变性
GWAS
结果< br>,
在医学界和遗传学界引起了极大的轰动
,
此后一系列
GWAS

续展开。
2006

,
波士顿大学医学院联合哈佛大学等多个 研究机构报道了基于佛明翰心脏
研究样本关于肥胖的
GWAS
结果
(Herbert

.
2006);2007

,
Saxena
等多个研究组联合报
道了与
2
型糖尿病
( T2D )
关联的多个位点
, Samani
等则发表了冠心病
GWAS
结果
( Samani

. 2007); 2008

, Barrett
等通过
GWAS
发现了
30
个与克罗恩病
( Crohns ' disrease)
相关的易感位点
; 2009

, W e is s
等通过
GWAS
发现了与具有高度遗传性的神经发育疾
病——自闭症关联 的染色体区域。我国学者则通过对
12
000
多名汉族系统性红斑狼疮患者
以及健康对照者的
GWAS
发现了
5
个红斑狼疮易感基因
,
并确定了
4
个新的易感位点
( Han

.
2009)
。截至
2009

10

,
已经陆续报道了关于人类身高、

体重、

血压等主要性状
,
以及视网膜黄斑、

乳腺癌、

前列腺癌、

白血病、

冠心病、

肥胖症、

糖尿病、

精神分
裂症、

风湿性关节炎等几十种威胁人类健康的常见疾病的
GWAS
结果
,
累计发表了近万篇
论文
,
确定了一系列疾病发病的致病基因、

相关基因、

易感区域和
SNP
变异。


标记基因的选择


1

Hap Map
是展示人类常见遗传变异的一个图谱
,

1
阶段完成后提供了

4
个人类种族
[
Yoruban
,Northern
and
Western
European
,
and
Asian
(
Chinese
and
Japanese)
]

269
个个体基因组
,
超过
100
万个
SNP
(

1 SNP / 3kb )
及连锁不平衡区域
( linkage disequilibrium, LD )

系的图谱。第二阶段增加了其它的人类种族数据。基于
Hap
Map
可以选

500 000

1 000 000
个覆盖全基因组的
SNP


2
)基因组拷贝数变异
( copy number variations ,CNV )

20
世纪
80
年代发现的在人类基因组中存在的 多种类型的染色体数目和结构变异。
是指与参考序列相比
,
基因组中
?
1 kb

DNA
片段插入、

缺失和
/

扩增
,
及其互相组合衍生的复杂染色体结构变异。

SNP
相似
,
部分
CNV
在不同人群中以不同频率分离并具有显著性差异
,
并可能影响基因表达
和表型改变
,
因此
CNV
也是一种引起疾病或增加复杂疾病发病风险的重
要遗传变异。

GWAS
采用的研究方式与传统的候选基因病例—对照
(case- control)
关联分
析一致
,
即如果人群基因组中一些
SNP
与某种疾病相关联
,
理论上这些疾病相

SNP
等位基因频率在某种疾病患者中应高于未患病对照人群。

动物重要经济性状即 复杂性状
GWAS
分析方法的原理是,借助于
SNP
分子遗
传标记,
进行总体关联分析,
在全基因组范围内选择遗传变异进行基因分型,

较异常 和对照组之间每个遗传变异及其频率的差异,
统计分析每个变异与目标性
状之间的关联性大小,
选出最相关的遗传变异进行验证,
并根据验证结果最终确
认其与目标性状之间的相关性 。

GWAS
的具体研究方法
与传统的候选基因法相类似:

1

单阶段方法
,即选择足够多的样本,一次性地在所有研究对象中对目标
SNP
进行基因分型,然后分析每个
SNP
与目标性状的关联,统计分析关联强度和< br>OR

(计算出的
OR
值等于
1
时,
则该因 素的疾病发生不起任何作用;
大于
1
时,
该因素为危险因素;小于
1
时,该因素为保护因素。)。

2
)目前
GWAS
研究主要 采用
两阶段方法
/
多阶段方法


第一阶段用覆盖全基因组 范围的
SNP
进行对照分析,
统计分析后筛选出较少
数量的阳性
SN P
进行。可以以个体为单位,也可以采用
DNA
pooling
的方法(后
者可大大降低及基因分型的成本和工作量)。。但是
DNA pooling
的基因分型
结果与对所有个体进行基因分型的结果仍有一定差异
, DNA pooling
估计的等位
基因频率标准差在
1 % ~ 4%
的范围
,
因而若单独以
DNApooling
来估计等位基
因频率
,
那么这种误差对全基因组的病例—对照研究的检验效能
( power of
test)
有重要影响。

第二阶段或随后的多阶段中采用更大样本的对照样 本群进行基因分型,
然后
结合两阶段或多阶段的结果进行分析。
这种设计需要保证第一 阶段筛选与目标性
状相关
SNP
的敏感性和特异性,
尽量减少分析的假阳性或 假阴性,
并在第二阶段
应用大量样本群进行基因分型验证。

结果的统计和分析


1
)在
GWAS
用于病例< br>-
对照研究设计时,
比较病例和对照组中每个
SNP
等位
基因频率差别多采用
4
格表的卡方检验
(
chi-square
test
)
,
并计算

OR
及其
95%
的可信区间
( confidence interval , CI) ,
归因分数

( attributable fraction , AF)
和归因危险度
( attributable risk ,
AR
);
同时需对如年龄、

性别等主要混杂因素采用
Logistic
回归分析
,
以基因型和混杂因素作为自变量
,
研究 对象患病状态为因变量进行分析。

2

GWAS
用于研究随机人群 的
SNP
与某一数量性状关联时
(
如身高、

体重、

血压等
)
,
主要应用单因素方差分析
(
one-way
ANOVA
)
比较
SNP
位点
3
种基因型与所研究的数量性状水平的关系
,
需要调整 混杂因素时则采用
协方差分析
( analysis o f covariance)
或线性回归

引起结果误差的主要原因有人群分层和多重假设检验调整。
无论是
GWAS
两阶段

/
多阶段设计
,
还是采用
Bonferroni
校正等遗传统计方法
,
都难以解决人群分
层及多重比 较导致的假阳性或假阴性问题。
GWAS
不能仅凭
P
值判断某个
SNP
是否与疾病真正关联
,
多种族、

多群体、

大样本的重复验证研究
(replication)
才是提高检验效能、

确保发现真正疾病关联
SNP
的关键。

【例】全基因组关联分析在乳腺癌易感位点筛选的应用

2007

6
月,乳腺癌关联协作组
(
Breast
Cancer
Association Consortium

BCAC)
首先报告了乳腺癌
GWAS
的结果,该研究共包括三个阶段
:
第一阶段
: 408
例家族性乳腺癌患者和
400
名对照,
266 722

SNP;
第二阶段
: 3990
例乳腺癌患者和
3916
名对照,
12 711

SNP;
第三阶段
: 22
例病例-对照研究,合计
21 860
例患者和
22 578
名对照,

30

SNP

研究结果最终发现了
5
个乳腺癌的易感性位点,
4

位于已知基因
: FGFR2 ( rs2981582)

TNRC9 /LOC643714

-


-


-


-


-


-


-


-



本文更新与2021-02-28 16:31,由作者提供,不代表本网站立场,转载请注明出处:http://www.xapfxb.com/yuer/462518.html

全基因组关联分析的原理和方法的相关文章