一个基因区域内
的read counts数目
取决于基因长度
和测序深度
。
基因长度
影响:同一样本
,基因越长
,随机打断得到的片段越多
,该基因被测到概率越大
,比对到该基因的reads越多
。测序深度
影响:不同样本
,样本的测序深度越高
,同一基因被测到次数越多
,比对到该基因的reads越多
。
Counts
比对到每个基因的reads有多少条
,在转录组测序中,称为Count数。每个测序样品的起始RNA量不同,文库量不同,测序数据量不同。
RPM(Reads per million mapped reads
)
10^6标准化了测序深度的影响,但没有考虑转录本的长度的影响。
RPKM(reads per kilobase of transcript per million reads mapped
) 单端
每百万reads中来自于某基因每千碱基长度的reads数。RPKM是将map到基因的read数除以map到基因组上的所有read数(以million为单位)与RNA的长度(以KB为单位),RNA-seq中用来表示基因表达量或丰度的方法。
total exon reads:某个样本mapping到特定基因的外显子上的所有的reads
mapped reads (Millions) :某个样本的所有reads总和
exon length(KB):某个基因的长度(外显子的长度的总和,以KB为单位)
FPKM(fragments per kilobase of transcript per million reads mapped
) 双端
比如在一个Illumina的pair-end(双尾)RNA-seq中,一对(两个)reads对应是一个DNA片段。
FPKM只计算两个reads能比对到同一个转录本的fragments数量,而RPKM计算的是可以比对到转录本的reads数量而不管PE的两个reads是否能比对到同一个转录本上。
TPM(Transcripts Per Kilobase of exon model per Million mapped reads
)
当计算TPM的时候,先对基因长度进行归一化,其次是测序深度的归一化。
TPM的现实意义是某给定基因的全长转录本出现的次数。