结合我之前写的一篇博客来看:http://matafight.github.io/2017/06/24/kaggle%E7%BB%8F%E9%AA%8C/
Step1:导入数据并了解数据轮廓
查看各个特征的基本数据类型并且计算哪些特征缺失值比较多。
将特征的数据类型分为数值型和离散型两大类。
Step2: 分析特征和标签的分布情况
单变量分布
对于连续特征
- 给出特征分布(可以不考虑缺失值)
sns.distplot函数
对于离散特征
- 就是看特征分布是否均衡
用sns.barplot函数。
可以直接用sns.countplot(x='Survived', data=df_train)函数
sns.catplot(x="deck", kind="count", palette="ch:.25", data=titanic)
多变量分布(可以是特征之间也可以是特征与标号之间)
连续变量与连续变量
连续变量与离散变量
sns.boxplot函数,也可以写成sns.catplot(x="day", y="total_bill", kind="box", data=tips);这样的形式。
离散变量与离散变量
对于标签
- 回归问题就是画图分布
- 离散问题就是看类分布是否均衡