以前的统计
项目 |
特征 |
基因组大小 |
3.2×109 bp |
常染色质 |
92% |
蛋白质编码序列 |
1.1%~1.4% |
RNA编码序列 |
28% |
内含子序列 |
24% |
基因间序列 |
75% |
基因数目 |
2万~2.5万 |
已知编码蛋白质的基因 |
19438 |
预测编码蛋白质的基因 |
2188 |
基因数量最多的染色体 |
chr19 |
基因数量最少的染色体 |
chr13 |
基因平均长度 |
2~30kb |
编码序列平均长度 |
1.3kb/每个基因 |
外显子平均总长度 |
1.4kb/每个基因 |
单个外显子的平均长度 |
145 bp |
基因内含子的平均长度 |
3365 bp |
5’—UTR平均长度 |
300 bp |
3’—UTR平均长度 |
770 bp |
已知基因外显子的平均数 |
9.7个/每个基因 |
预测基因外显子的平均数 |
4.7个/每个基因 |
外显子最多的基因 |
肌联蛋白基因,234个外显子 |
AT / GC |
54% / 38% |
SNP出现的频率 |
1/1.3kbp |
SNP造成蛋白质变异 |
0.12% ~ 0.17% |
重复序列占基因组的比例 |
50%以上 |
1, 四类寄生的DNA |
46% |
其中,LINE |
21% |
其中,SINE |
14% |
其中,反转录病毒类 |
8% |
其中,DNA转座位子 |
3% |
2, 大段染色体重复 |
5.3% |
3.
(A)n,(CA)n,(CCC)n等重复序列 |
3% |
CpG岛占全基因组 |
0.7% (27 000个) |
其中,长度小于1 800bp |
95% |
其中,长度小于850bp |
75% |
其中,最长在chr10 |
36619 bp |
最新统计数据
基因 |
总数量 |
protein-coding genes |
20412 |
pseudo-genes |
14600 |
total long ncRNA |
14727 |
total small ncRNA |
5037 |
miRNA |
1756 |
rRNA |
532 |
snRNA |
1944 |
snoRNA |
1521 |
misc ncRNA |
2213 |
snoRNA : 小核仁RNA
snRNA: 小核RNA
rRNA: 核糖体RNA
scRNA:细胞质小RNA
TERC:端粒酶RNA
small ncRNA: 包括miRNA和siRNA
miRNA: 微小RNA
siRNA:小干扰RNA
lncRNA:长链非编码RNA,包括
,sense lncRNA(同义长非编码)
,antisense lncRNA(反义长非编码RNA)
,intronic lncRNA(内含子长非编码)
,lincRNA(基因间区长非编码RNA)
本人统计:
miRNA基因: 3043个
人类已知成熟的miRNA:2588个(来源于早年的miRBase v21)