观察数据的分布

其他 2021-03-05 01:54:03 阅读次数: 0

在这里记录一些在学习，比赛中用到的 EDA 方法，当作备忘录吧…

1 缺失值

有些缺失值不是 nan，还可能是 -1, inf, ‘-’ 等特殊数字字符

对于 object
首先通过 Train_data.info() 查看有哪些 object
对特定的列 Train_data[col].value_counts() 查看值分布
若出现 ‘-’ 等特殊字符就看作缺失值，可先设置为 nan 或 ‘nan’ 好处理

Train_data[col].replace('-', np.nan, inplace=True)

然后绘图好观察缺失值分布情况

Train_missing = Train_data.isnull().sum()
Train_missing = Train_missing[Train_missing>0]
Train_missing.sort_values(inplace=True)
Train_missing.plot.bar()

测试集也做一遍

2 数据分布失衡

可以通过绘图查看数据的分布情况
对于取值很少，且分布严重失衡的进行删除

plt.figure(figsize=(15, 9))
cols = 6
rows = len(Train_data.columns)//cols+1
i = 1
for col in Train_data.columns:
    plt.subplot(rows, cols, i)
    sns.distplot(Train_data[col])
    i += 1
plt.tight_layout()

3 标签分布

做回归问题时，观察 label 的分布情况，要满足正态分布

sns.distplot(Train_data['price'])

然后使用对数变换，注意有没有 0，考虑加 1

Train_data['price'] = np.log(Train_data['price'])

猜你喜欢

转载自blog.csdn.net/qq_40860934/article/details/114223928

观察数据的分布

python_如何观察数据分布_describe

观察特征的分布

[转] R 2 数据观察

RSD 教程 —— 3 观察数据

观察数据结构网站

第五章观察分布式服务

【观察】OceanBase 4.0，单机与分布式的新拐点

数据分布

【观察】企业IT如何面对数据“高考”

利用属性观察器实现数据绑定

Jetpack LiveData 可被观察数据 MD

RSD 教程 —— §3.4 观察光谱数据

数据分布——长尾分布的处理

数据可观察性如何帮助数据目录计划

如何提高分布式系统的可观察性：Insight Tool的引入

数据分布特征

分布式数据

浅谈HBase的数据分布

GreenPlum数据分布策略

数据的分布分析

Redis 数据分布算法

ceph数据分布

android 观察者模式监听彩信数据库

[Unity] 用观察者模式实现处理数据的分发

DataBinding使用指南(二)：使用可观察的数据对象

Kaggle房价预测数据观察和处理入门学习

【转载】ABAP 利用观察点调试来跟踪数据来源

在观察研究中减少数据偏倚：倾向评分（一）

C#调试程序——断点+几种观察数据的方法

今日推荐

周排行

(BIND最佳实践)Linux运维最佳实践

makefile ifeq之坑: 1. syntax error near unexpected token 2. *** missing separator. Stop.

easyui datagrid操作栏内置图片按钮

SQLyog连接MySQL时出现的2058错误解决方法

linux音频开发

hashcode方法简析

SpringBoot中使用Transaction注解遇到的坑

逆战-CSS中子元素在父元素中的4种水平垂直居中方法

Expression.Blend.4 Chapter 图片和视频的使用

springMVC返回void值

每日归档

更多

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)

2024-09-08(0)