人类基因统计信息

以前的统计

项目 特征
基因组大小 3.2 × 1 0 9 3.2\times10^9 bp
常染色质 92%
蛋白质编码序列 1.1%~1.4%
RNA编码序列 28%
内含子序列 24%
基因间序列 75%
基因数目 2万~2.5万
已知编码蛋白质的基因 19438
预测编码蛋白质的基因 2188
基因数量最多的染色体 chr19
基因数量最少的染色体 chr13
基因平均长度 2~30kb
编码序列平均长度 1.3kb/每个基因
外显子平均总长度 1.4kb/每个基因
单个外显子的平均长度 145 bp
基因内含子的平均长度 3365 bp
5’—UTR平均长度 300 bp
3’—UTR平均长度 770 bp
已知基因外显子的平均数 9.7个/每个基因
预测基因外显子的平均数 4.7个/每个基因
外显子最多的基因 肌联蛋白基因,234个外显子
AT / GC 54% / 38%
SNP出现的频率 1/1.3kbp
SNP造成蛋白质变异 0.12% ~ 0.17%
重复序列占基因组的比例 50%以上
1, 四类寄生的DNA 46%
其中,LINE 21%
其中,SINE 14%
其中,反转录病毒类 8%
其中,DNA转座位子 3%
2, 大段染色体重复 5.3%
3. ( A ) n , ( C A ) n , ( C C C ) n (A)_n,(CA)_n,(CCC)_n 等重复序列 3%
CpG岛占全基因组 0.7% (27 000个)
其中,长度小于1 800bp 95%
其中,长度小于850bp 75%
其中,最长在chr10 36619 bp

在这里插入图片描述

最新统计数据

基因 总数量
protein-coding genes 20412
pseudo-genes 14600
total long ncRNA 14727
total small ncRNA 5037
miRNA 1756
rRNA 532
snRNA 1944
snoRNA 1521
misc ncRNA 2213

snoRNA : 小核仁RNA
snRNA: 小核RNA
rRNA: 核糖体RNA
scRNA:细胞质小RNA
TERC:端粒酶RNA
small ncRNA: 包括miRNA和siRNA
miRNA: 微小RNA
siRNA:小干扰RNA
lncRNA:长链非编码RNA,包括
,sense lncRNA(同义长非编码)
,antisense lncRNA(反义长非编码RNA)
,intronic lncRNA(内含子长非编码)
,lincRNA(基因间区长非编码RNA)
本人统计:
miRNA基因: 3043个
人类已知成熟的miRNA:2588个(来源于早年的miRBase v21)

猜你喜欢

转载自blog.csdn.net/W_LAILAI/article/details/88353169