导入包
In [175]:
import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn.preprocessing import LabelEncoder from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier
导入睡眠健康数据集
在使用pandas导入数据的时候,会出现编码问题,所以需要使用GBK编码读取,否则会报错!
In [176]:
df = pd.read_csv('/home/mw/input/data1581/Sleep_health_and_lifestyle_dataset.csv',encoding='gbk').set_index('ID')
In [177]:
df.head()
Out[177]:
性别 | 年龄 | 职业 | 睡眠时长 | 睡眠质量 | 身体活动水平 | 压力水平 | BMI | 血压 | 心率 | 每日步数 | 睡眠障碍 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
ID | ||||||||||||
1 |