CGC中723个基因通过ClusterProfiler
的bitr
函数转换后,有15个基因无法匹配到对应的EntrezID。我通过与genecard比较,找出了作妖的原因。
究竟是什么原因呢?
ID不对!CGC提供的id不是标准的ID,无法通过org.Hs.eg.db
索引到相应的其他类型ID。我用了一个笨办法,从genecard逐个挑出了这些基因的标准ID,贴上了对应的EntrezID。
Gene Symbol GeneCardID EntrezID
C2orf44 WDCP 80304
CASC5 KNL1 57082
FAM46C TENT5C 54855
KIAA1598 SHTN1 57698
LHFP LHFPL6 10186
MKL1 MRTFA 57591
MLLT4 AFDN 4301
RUNDC2A SNX29 92017
SEPT5 SEPTIN5 5413
SEPT6 SEPTIN6 23157
SEPT9 SEPTIN9 10801
WHSC1 NSD2 7468
WHSC1L1 NSD3 54904
ZNF198 ZMYM2 7750
ZNF278 PATZ1 23598
随后将这15基因的GeneCardID作为输入,能正确匹配对应ID。
cgc.genecard <- c("WDCP","KNL1","TENT5C","SHTN1","LHFPL6",
"MRTFA","AFDN","SNX29","SEPTIN5","SEPTIN6","SEPTIN9",
"NSD2","NSD3","ZMYM2","PATZ1")
bitr(cgc.genecard,
fromType="SYMBOL",
toType="ENTREZID",
OrgDb="org.Hs.eg.db",
drop = F)
'select()' returned 1:1 mapping between keys and columns
SYMBOL ENTREZID
1 WDCP 80304
2 KNL1 57082
3 TENT5C 54855
4 SHTN1 57698
5 LHFPL6 10186
6 MRTFA 57591
7 AFDN 4301
8 SNX29 92017
9 SEPTIN5 5413
10 SEPTIN6 23157
11 SEPTIN9 10801
12 NSD2 7468
13 NSD3 54904
14 ZMYM2 7750
15 PATZ1 23598
哎,有没有什么办法比较轻松的解决CGC与genecard中标准基因名不一致的问题?
哎,用了clusterProfiler就得用org.Hs.eg.db,怎么更好的解决org.Hs.eg.db和ensemble间的不协调呢?