月份、季节、周末等因素可能对结果的预测有影响,需要自行加工把特征添加到数据集里。使用month 、weekday等时间属性可以把特征处理出来。
特征工程中常用的时间属性:
返回月份,如1月=1 |
dt.month |
当年的第几周,如1月1日=1 |
dt.weekofyear |
周几,如对应日期是周二=2 |
dt.weekday |
当周的第几天 |
dt.dayofweek |
其他时间属性:
Series.dt.year 返回年份
Series.dt.day 返回日期
Series.dt.hour 返回小时
Series.dt.minute 返回分钟
Series.dt.second 返回秒
Series.dt.microsecond 返回微秒
Series.dt.nanosecond 返回纳秒
扫描二维码关注公众号,回复:
14749244 查看本文章
加工特征的例子:
data['policy_bind_date_weekday'] = data['policy_bind_date'].dt.weekday
代码讲解:
data是原有的数据集;
data['policy_bind_date_weekday']中括号里面的是新命名的特征,用来储存新加工的特征;
dt.weekday是调用series的dt属性,返回周几;
运行结果:
对auc的贡献:
没有weekday特征的:
有weekday特征的:
结论:结果有提升4个千分位,说明这个特征是有效的。