-
如何命名人类基因和蛋白
朱丽芳
一、命名法中包括的基因的种类和定义范围:共
13
种。
(1)
被确定为以单基因孟德尔性状遗传的表型,如
BBS1
(B ardet
.
Biedl
综合征
1
,
Bardet
.
Biedl Syndrome 1)
。
(2)
通过与已知标记 连锁或相关分析所显示的贡献于复杂性状的未鉴定基因,如
IDDM6
(
胰岛素依赖性 糖尿病
6
,
insulin
.
Dependent diabetes mellitus 6)
。
(3)
具有足够的结构、功 能和表达数据的克隆
DNA
片段,如
COX8
(细胞色素
C
氧化酶亚单
位Ⅷ,
cytochrome C oxidase subunit
Ⅷ)
(4)
假基因
(
即无功能基因拷贝< br>)
,如
IL9RP1
(
白介素
9
受体假基因
1
,
interleukin 9
receptor pseudogene 1)
(5)
由与一个已知基因重叠的反义链编码的基因,
如
IGF2AS
(
胰岛素样生长因子
2
,
反义;
insulin
—
like growth factor 2
,
Antisense)
:
(6)
转录但不翻译的功能
DNA
片段,如
XIST
(X (
失活
)
一特异性转录本,
X
(inactive)-specific transcript)
。
(7)
与细胞表型相关的一个基因或若干基因,如
LOH18CR
(
杂合性丢失,
18
,染色体区域
1
;
loss of heterozygosity
,
18
,
chromosomal region 1)
。
(8)
表明一个推测基因的
EST
簇,
如
C1O RF1
(
染色体
1
开放读框
1
,
chromoso me 1 open
reading frame 1)
。
(9)
表达序列片段,按基因组数据库的序数编号,如
DXYS155E
(
附录
1 )
。
(10)
由单个
mRNA
产生的多顺反子基因,但是 它们具有独立的编码序列和各自的物理性
质,
以及不与其他编码序列重叠,
如
SNURF
(SNRPN
上游读框,
SNRPN
upstream
reading
frame)
和
SNRPN
(
小的核内核 糖核蛋白多肽
N
,
small nuclear ibonucleoprotein polypeptide N)
:
(11)
享有高度相似序列的未知功能基因,如
FAM7A1
(
序列相似性
7
家族,
成员
A1
;
family with sequence similarity 7
,
member A1)
。
(12)
与已知基因具有高度同源性的被预测基因
(in
silico)< br>,在已知基因符号后加
L
,如
TCP10L
[t-
复合物10(
小鼠
)
样基因,
t-complex 10(mouse)-like]
。
(13)
在同一
DNA
链上发现的内部转录物:
要注明所对应的基因和内部转录物,
如
COPG21T1
(
外被体蛋白复合物,
亚基
γ
2
,
内含子转录物
1
;
coatomer
protein
complex
,
subunit
gamma-2
,
intronic transcript 1)
。
二、基因全称命名规则
(
1
)名字的开始应该应用小写字母,但有三个例外,即用人名表示
疾病
、
表型
或者是
首字母的缩写(红色部分为全称的表示法)。
标准的表示有:
chromosome 1 open reading frame 1
(染色体
1
开放读框
1
)
特殊的情况:
AHDS
“
Allan-Herndon- Dudley
综合征,
Allan-Herndon-Dudley
syndrome
”,
ABCA1
“
ATP-
结 合盒,亚家族
A(ABC1)
,
1
号成员,
ATP
binding
cassette
,
sub-family
A(ABC
1)
,
member1
”。
(
2
)描述性的内容紧接在名字主干的后面,用逗号分开。
如
ACO1
“顺乌头酸酶,可溶性的,应该写为
aconitase 1
,
soluble
”
(3)
如果存在一个别名,也应该包括在这个名字里面,
加上括号即可
如,
IDS
“艾杜糖醛酸
2-
硫酸酯酶
(Hun ter
综合征
)
,应该表示为
iduronate
2-sulfatase(Hunter syndrome)
”
(4)
其他种
属的名称必须在最后写在括号内。
如
LFNG
“边缘性精神错乱同源基因
(
果蝇
)
,
就应该写为
lunaticfringe
homolog(Drosophila)
”
ANLN
“
anillin
,
肌动蛋白结合
蛋白
(
小片段同源,
果蝇
)
,
anillin
,
actin
binding
Protein
(scraps homolog
,
Drosophila)
”。
第三、基因符号命名规则
1
、普遍基因
(1)
人类基因符号为大写拉丁字母或其与阿拉伯数字的组合
(
除
C
、< br>ORF
符号外
)
。不用罗马
数字
(
过去用的罗马数字 要改为对等的阿拉伯数字
).
(2)
理想的符号不超过
6
个字符。
基因符号在书写时应用斜体或加下划线。
但在目录中例外。
(3 )
希腊字母不用作基因符号。所有过去用的希腊字母应转换为拉丁字母(见表
1
)。< br>
(4)
前缀为希腊字母的基因名称应转换为对等的拉丁字母并放在基因符号的末端,具 有类似
性质的基因可按字母顺序排列,如
GLA
(
半乳糖苷酶,
α
;
galactosidase
,
alpha)
;
GLB
(
半
乳糖苷酶,
β
;
galactosidase
,
beta)
。
(5)
不使用标点符号
(
除HIJA
免疫球蛋白和
T
细胞受体基因符号可用分字号外
)
#
#
(6)
基因符号通常不表示选择性转录物,但当一组具有多个小编码序列形成多种不 同的大的
基因产物时,这些小的编码序列可用不同符号表示,如
UGT1A
1-
UGT1A13
(UDP
糖基转移酶
1
家
族,
多肽
A1
至
A13
;
UDP glycosyltransferase 1 family
,
polypeptide A 1 to A 1 3
)
,
分别代表
13
个不同的基因符号。
(7)
应避免表示组织特异性或分子量。
(8)
应避免某些字母或字母组合作为基因符号的前、后缀而试图给出特定意义:
< br>(9)
癌基因的符号是对应于逆转录病毒同源癌基因,但基因符号不加“v
-
” 或“c
-
”前缀,
全称要加如
JUN
“v
-Jun
肉瘤病毒
17
癌基因同源物
(
禽类
)
,
v
—
Jun
Sarcoma
Virus
17
oncogene
homolog
(
avian1
)” ,
SRC
“v
-src
肉瘤
(Schmidt-Ruppin A-2)
病毒癌基因同源物
(
禽
类
)
;
v-sre sarcoma(Schmidt-Ruppin A-2) viral oncogene homolog (
avian)”。
2
、同源基因
(1)
在不同脊椎动物中的同源基因应有相同的命名。
(2)
如果与非脊椎动物或原核生物同源
,
人类基因可用这些同源基因的名字
,
并可在后面
加
L
表示类似的
(like)
和加上数字编号< br>(
如果在人中有多个同源基因
)
。
(3)
为了区分来自不同物种的同源基因
,
可在基因符号前加三字母代码。如
HSA
代表人类
(Homo sapiens), MMU
代表家鼠
(Mus musculus)
。使用这些物种 符号的基因符号的例子如
(HSA)G6PD
、
(HSA)HBB
、
(MMU)A1b
。
(4)
一些具有特殊用途的保留字
一些字母或字母的组合放在基因符号的最后一个字母的后
面表示特定的意义
,
如
P
代表假基因
(
但要注意
BP
代表结合蛋白
) , L
代表类似的;
R
代表受体
或调节因子
, N
或
NH
代表抑制子。
3
、
DNA
片段的命名
DNA
片段的命名一般 由四部分组成。第一部分用
D
表示
DNA
;第二部分用
0
、
1
、
2
、...
22
、
X
、
Y< br>、
XY
表示
DNA
片段所在的染色体位置
,
其中
0
代表还不知染色体位置
,
而
XY
表示片段 在
X
和
Y
染色体上都有该片段;第三部分表示用探针检测到的
DNA
片段的复杂程度
, S
代表这是一
条独一无二的
DNA
片段
,
Z
代表在染色体一个单一位置重复出现的
DNA
片段
,
F
代表在多条染色
体上都存在同源序列但还没有定义家族的
DNA
片段;
第四部分为区分不同的
DNA
片段加上一个
数字编号
,
比如微卫星
DNA
标签
(microsatellite DNA mark er)DXS990
表示在
X
染色体上独一
无二的编号
990
的
DNA
片段。
4
、染色体片段命名
与人类
C#orf#
基因的同源基因来说,
建议在小鼠身上使用相同的命名规则来分配人类< br>D#
片段
-
-
-
-
-
-
-
-
本文更新与2021-02-28 15:56,由作者提供,不代表本网站立场,转载请注明出处:http://www.xapfxb.com/yuer/462421.html