版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
FPKM
定义: Fragments Per Kilobase of exon model per Million mapped fragments(每千个碱基的转录每百万映射读取的片段数)
公式:
参数介绍:
- :基因 i 的表达量(转录本数/fragments数/raw_counts)。
- :基因 i 的所有外显子长度总和。
- :一个样本中所有基因的表达量,也叫做测序深度。
意义: 对于原始测序数据,同时标准化基因长度和测序深度,这样基因之间的表达量才可以进行比较。
TPM
定义: Transcripts Per Kilobase of exon model per Million mapped reads(每千个碱基的转录每百万映射读取的转录本数)
公式:
意义: 对于原始测序数据,先标准化基因长度,然后再标准化测序深度。
对比
相比于FPKM标准化表达数据,TPM标准化后的每个样本的测序深度都是 ,基因的表达量转化为比例,基因表达量的组间比较结果更为可靠。
R中实现
表达矩阵FPKM标准化
数据:
- 原始表达矩阵
- 转录本长度
expr1 = expr/transcript_len$length
fpkm = t(t(expr1)/colSums(expr)) * 10^9
表达矩阵TPM标准化
tpm = t(t(expr1)/colSums(expr1)) * 10^6
FPKM数据转为TPM数据
fpkm_to_tpm = t(t(fpkm)/colSums(fpkm))*10^6