若参考基因组序列不包含chr*random 和 chrUn序列,原来属于chrrandom 和 chrUn的read可能比对到chr1-22,chrX,chrY上相似区域,造成假阳性比对,后续这些reads提供的信息不可靠。通过增加这一部分参考序列,使来自这些区域的reads正确比对,减少假阳性。后续分析不考虑chrrandom 和 chrUn*。
human GRCh37
“unlocalized sequences
”:知道染色体但不知具体位置
的序列
“unplaced sequences
”:知道来自人类基因组序列,但不知与染色体的关系
“alternate loci
”:来自基因组特定区域
,代表该区域序列的多样性
human hg19…
“chr*_random sequences
” : 知道来自哪条染色体但不知具体位置
的序列
The chr*_random sequences are unplaced sequence on those reference chromosomes.
“chrUn_* sequences
” : 知道来自人类基因组序列,但不知与染色体的关系
The chrUn_* sequences are unlocalized sequences where the corresponding reference chromosome has not been determined.
高粱super,玉米scoffold
基因组组装时部分片段无法挂载到染色体上,因此除了染色体外还有一些片段留在参考基因组当中,有的基因组将这些片段之间加N链接成super序列
,也有的直接不处理以scoffold出现
水稻sy和un
Sequences from BACs and the Syngenta assembly of Nipponbare that could not be anchored are on separate pseudomolecules, the Unanchored and the Syngenta chromosomes
.