categorical and ordinal feature

categorical and ordinal feature

比如泰坦尼克号的Pclass 代表乘客乘坐的是几等仓

1,2,3是有顺序的,代表越贵的仓

而且注意:1和2之间的差距,与 2和3之间的差距 并不相同

顺序有意义的 categorial feature就是 ordinal feature

--------------------------------------------------------------------------------------------------------------------

可以看到,没有进行one hot之前,线性模型表现不好,而tree model能很好的分类。

---------------------------------------------------------------------------------------------

pandas factorize 对categorical feature进行编码

排序前为S C Q

排序后为C Q S

-------------------------------------------------------------------------------------------

下面是完全计算出频率作为特征:

这种特征对 树模型和线性模型都有帮助,因为频率和target很可能相关

---------------------------------------------------------------------------------------------------------------------------------

pandas.get_dummies

sklearn.preprocessing.OneHotEncoder

one hot编码对线性模型有帮助

但是如果categorical feature有很多种取值,树模型由于特征太多将会很慢。而且此时必须使用sparse matrix

-----------------------------------------------------------------------------------------------------------------

特征组合:

特征组合可以提升线性模型的性能。不过注意,neural network本来就可以进行各种组合,所以不用再做。

猜你喜欢

转载自blog.csdn.net/qq_39638957/article/details/89003697