R语言实验：数据探索 - 代码天地

R语言实验：数据探索

其他 2018-11-05 06:20:20 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/m0_37345402/article/details/83215363

数据介绍

使用银行对资产进行评估的数据bank-data.csv，数据里有12个属性，分别是id,age,sex,region,income,married,children, car, save_act, current_act, mortgage,pep.共600个实例。
本测试集中将pep属性作为分类的目标类别。

实验3 数据探索与预处理

1.数据探索

数据质量分析

缺失值分析

计算缺失值个数。

计算缺失率。

> setwd("G:/!！aaclassnew/R语言/20181011")
> saledata=read.csv(file = "bank-data.csv",header = TRUE)
> sum(!complete.cases(saledata))
[1] 6
> mean(!complete.cases(saledata))
[1] 0.01

异常值分析

简单统计量：计算最值。

箱形图分析。

> setwd("G:/!！aaclassnew/R语言/20181011")
> saledata=read.csv(file = "bank-data.csv",header = TRUE)
> sp=boxplot(saledata$income,boxwex=0.7)
> title("银行异常值检测")
> xi=1.1
> sd.s=sd(saledata[complete.cases(saledata),]$income)
> mn.s=mean(saledata[complete.cases(saledata),]$income)
> points(xi,mn.s,col="red",pch=18)
> arrows(xi,mn.s-sd.s,xi,mn.s+sd.s,code = 3,col = "blue",angle = 75,length = .1)

数据特征分析

分布分析：画出频率直方图。

统计量分析：对于连续属性值，求出均值以及标准差。

> dataa=saledata[,5]
> dataa

> hist(dataa,xlab = "Weight",col = "blue",border = "red",ylim = c(0,20),breaks = 2000)

> sales=saledata[,5]
> mean_=mean(sales,na.rm = T)
> mean_
[1] 27514.46
> std_=sqrt(var(sales,na.rm = T))
> std_
[1] 12821.21

2.数据预处理

数据清洗

缺失值处理：删除法。

> n=sum(is.na(dataa))
> n
[1] 6
> sub=which(is.na(dataa))
> sub
[1] 456 457 458 459 460 461
> dataa1=dataa[-sub]
> dataa1

数据集成

去除无用属性：删除“ID”属性。

> data2=saledata[,c(2:12)]
> data2

数据变换

离散化：把“Children”属性转换成分类型的两个值“YES”和“NO”；把income属性按照节点12640.3；17390.1；29622；43228.2离散化。

> for(i in 1:600)
+ {
+ if(saledata[i,7]>0){saledata[i,7]="YES";}
+ else {saledata[i,7]="NO";}
+ }
> saledata

> saledata=read.csv('bank-data.csv',he=T)
> v=sort(saledata[,5])
> v

猜你喜欢

转载自blog.csdn.net/m0_37345402/article/details/83215363

R语言实验：数据探索

【R语言实验】R语言向量、矩阵和数据框的创建

R语言实验报告

R语言实验汇总----助力高绩点

【R语言实验】R语言多元线性回归模型的建立和检验过程

【R语言实验】R语言多元线性回归模型中变量的选择和诊断分析

R语言实战

R语言- 实验报告 - 数据清洗

C语言实验

R语言学习（二）数据分析数据探索

空间数据分析与R语言实践

用R语言实现数据离散化

R语言实战（二）创建数据集

R语言实现NetCDF气象数据的逐月解析提取

R语言探索BRFSS数据可视化

《R语言实战》学习记录：R语言介绍及创建数据集

【数据库系统设计】SQL语言实验

数据结构实验C语言实现版

数据科学与python语言实验——NumPy数值计算基础

基于C语言实现的DataLab数据表示实验

R语言实战-云图

R语言实用函数

R语言实现多线性回归模型预测时间序列数据 MLR models in R

C语言实验——余弦

汇编语言实验

C语言实验——整除

c语言实验二

c语言实验一

C语言实验五

C语言实验——素数

今日推荐

零基础入门鸿蒙开发 HarmonyOS NEXT星河版开发学习

豆包MarsCode帮我2小时完成Go语言系统从开发、测试到部署全流程最佳实践，云IDE迁移PHP企业级项目最佳实践

内幕！smardaten无代码平台全方位测评，这些细节你绝对想不到！

idea安装及激活配置流程---2024旗舰版(需激活码)

Elastic 创始人：热爱开源，希望合作 OSI 创建新许可证

工业互联网标识解析体系开放开源下载服务中心发布

IDEA取消自动选择光标所在行

828华为云征文 | 使用Flexus X实例搭建Dubbo-Admin服务

Programmer&AI—AI辅助编程学习指南

【Linux】虚拟机安装 openEuler 24.03 X86_64

o1 发布后 Sam Altman 最新访谈：AI 发展不仅没有放缓，而且我们对未来几年已经胜券在握

AI芯片国产化率100%！运营商最大单集群智算中心投产

周排行

【后端】 Spring Cloud 服务间调用

Git 学习教程

Salesforce集成(三). 获取数据02_获取Object和Field信息

Oracle执行计划的稳定（使用MANUAL类型的SQL PROFILE）

js跨域请求之jsonp原理和运用

ios -解决view遮挡按钮问题

【PAT天梯赛】L2-003 月饼（25 分)（贪心思想）

hive 存储格式的生产应用

【Python实践-6】将不规范的英文名字，变为首字母大写，其他小写的规范名字

容器学习点点滴滴（二）

每日归档

更多

2024-10-03(2)

2024-10-02(60)

2024-10-01(0)

2024-09-30(0)

2024-09-29(0)

2024-09-28(4)

2024-09-27(60)

2024-09-26(0)

2024-09-25(0)

2024-09-24(0)