临床数据库挖掘系列3-手把手教你使用R语言对seer数据库清洗

在这里插入图片描述
从seer数据库下载到数据后,部分人会感到无从下手,这是因为数据还没有经过清洗整理,不能变成我们统计软件识别的形式,不能进行分析。今天我们手把手教你使用R语言进行seer数据库清洗,让数据变为我们所用。
首先导入我们需要的R包,需要foreign,car,和stringr,需先下载好。
在这里插入图片描述
然后我们把我们下载好的数据导入R,有20多万条,靠手工更改是不可能完成的。

be<-read.csv("E:/r/test/seer4.csv",sep=',',header=TRUE)

在这里插入图片描述
查看一下数据的名字和形式还有变量
head(be)
names(be)
在这里插入图片描述
在这里插入图片描述
感觉太乱了,有些名字很长,全部给它改下名字

colnames(be)<-c("sex","time","rezult","rezult1","status","race","Subtype","nodes","Lymph.Invasion",
                "tumor.size","extension","lymph.nodes","age","ajcc")#数据太长,重新命名

我们重新查看一下数据集,这回清爽多了
在这里插入图片描述
我们发现一共有14个变量,其中Lymph.Invasion都是缺失数据,根本不能分析,只能删掉,这就是公共数据库的无奈

be<-be[,-9]#删掉第9列Lymph.Invasion,因为都是缺失的数据

在这里插入图片描述
很多数据中变量都是字符串,不符合要求,我们要把它们变成数字

be$sex<-ifelse(be$sex=="Female",1,ifelse(be$sex=="Male",2,NA))#性别转换成1和2,缺失的使用NA表示,其他的相同
be$rezult1 <-ifelse(be$rezult1 =="Alive or dead due to cancer",1,
                    ifelse(be$rezult1 =="Dead (attributable to causes other than this cancer dx)",
                           2,NA))
be$status<-ifelse(be$status=="Alive",0,ifelse(be$status=="Dead",1,NA))
be$race<-ifelse(be$race=="White",1,ifelse(be$race=="Black",2,3))
be$Subtype<-recode(be$Subtype,"'HR-/HER2- (Triple Negative)'=1;
       'HR-/HER2+ (HER2 enriched)'=2;'HR+/HER2- (Luminal A)'=3;
       'HR+/HER2+ (Luminal B)'=4;else=NA")#这里是4个分类变量,使用ifelse函数套叠胎麻烦,改用car函数
be$nodes[be$nodes=="Blank(s)"]=NA#让数据中的Blank(s)变为缺失值,下面同理
be$tumor.size[be$tumor.size=="Blank(s)"]=NA
be$extension[be$extension=="Blank(s)"]=NA
be$lymph.nodes[be$lymph.nodes=="Blank(s)"]=NA
be$age<-str_extract(be$age, "\\d+")#把年龄里面的数字提取出来
be$ajcc[be$ajcc=="Blank(s)"]=NA

在这里插入图片描述
OK,转换得差不多了,我们来看一下,rezult没有用,我们不理他,等下删掉,我们需要的是rezult1
在这里插入图片描述
Ajcc我们没有转换,因为暂时还不需要用,等我们讲到探索交互效应分析的时候再说它,现在先不理他先,你如果有强迫症的话也可以按我们上面的代码转换它
OK,现在完成了?不还没有,还有一个重要的变量没有生成,就是竞争风险的结局
我们现在来生成它

be$status1<-ifelse(be$status==0,0,ifelse(be$rezult1==1,1,2))

最后数据出来啦
在这里插入图片描述
把它输出为1.csv

write.csv(be,file = "1.csv")

最后打开1.csv,整理一下,这就是我们要发表的数据啦
在这里插入图片描述
20多万条数据,发个中文核心或者低分SCI还不是轻轻松松,玩一样。
如果想更详细了解数据挖掘过程,请关注我的科研教程
更多精彩文章请关注公众号:零基础说科研
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/dege857/article/details/112795092