类别特征编码 - 代码天地

类别特征编码

其他 2018-09-05 12:08:28 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/jin_tmac/article/details/80611676

特征工程中通常要处理类别特征，如学历、性别、城市等，经常的做法是转换成dummy变量。会有LabelEncoder、OneHotEncoder、factorize、get_dummies4种方法。
下面进行比较：

import pandas as pd
from sklearn import  preprocessing

test=pd.DataFrame({'city':['beijing','shanghai','shenzhen'],'age':[21,33,23],'target':[0,1,0]})

1、LabelEncoder

label = preprocessing.LabelEncoder()
test['city']= label.fit_transform(test['city'])
print(test)

   age  city  target
0   21     0       0
1   33     1       1
2   23     2       0

2、OneHotEncoder

enc=preprocessing.OneHotEncoder(categorical_features=[1], sparse=False)
test=enc.fit_transform(test)
print(test)

[[ 1.  0.  0. 21.  0.]
 [ 0.  1.  0. 33.  1.]
 [ 0.  0.  1. 23.  0.]]

categorical_features默认是‘all’表示对所有特征编码，[1]是变量的索引，表示第2个变量；sparse 缺省状态下是True表示输出为稀疏矩阵。未经编码的变量放在右边。

3、factorize

print(pd.factorize(test['city']))

(array([0, 1, 2], dtype=int64), Index(['beijing', 'shanghai', 'shenzhen'], dtype='object'))

4、get_dummies

print(pd.get_dummies(test['city'],prefix='city'))

   city_beijing  city_shanghai  city_shenzhen
0             1              0              0
1             0              1              0
2             0              0              1

实际应用时可以如下：

test.apply(lambda x: pd.factorize(x)[0])

比较发现：LabelEncoder和factorize编码都是转化成了序数型，但有时这不是我们所期望的（如学历）；OneHotEncoder和get_dummies都是按照类别全部转换成了dummy变量，虽然这会增加大量的存储空间。

猜你喜欢

转载自blog.csdn.net/jin_tmac/article/details/80611676

类别特征编码

类别型特征的编码方式

高基数类别特征的编码处理

类别型特征编码方法总结

类别特征的独热编码和二进制编码

解决sklearn中使用OrdinalEncoder编码测试集的类别特征中的未知类别时会报错的问题

类别型特征

lightgbm处理类别特征

类别特征OneHot

sklearn数据预处理(preprocessing)系列——类别以及特征的编码(Encoder)

推荐收藏，这或许是最全的类别型特征的编码方法总结

高基数类别特征预处理：平均数编码 | 京东云技术团队

机器学习--类别编码

类别特征的处理方法大全

类别特征的各种处理总结

推荐系统类别特征的embedding

特征工程之类别特征

特征编码

Python数据分析实战-数值型特征和类别型特征归一化编码操作（附源码和实现效果）

信息论编码的类别

Lightgbm如何处理类别特征？

类别型特征提升(Categorical Boosting, CatBoost)

特征工程之特征缩放&特征编码

机器学习特征工程——类别相关统计特征

特征预处理和特征生成 (二)类别特征和序数特征

ML：基于泰坦尼克号数据集利用多种树类算法(独热编码/标签编码+DT/RF/XGBoost/LightGBM/CatBoost+主要探究各算法对【类别型】特征的处理)进行交叉验证训练并对比模型性能

使用sklearn实现类别编码和onehot编码

利用神经网络的embedding层处理类别特征

预处理时如何处理类别型特征

多值类别特征加入CTR预估模型的方法

今日推荐

周排行

8种防盗链的方法

php的序列化和反序列化

Java 8：CompletableFuture

Android版本差异适配方案(5.0-9.0)

makedownpad使用

Spring Boot 使用AOP切面实现后台日志管理模块

实战SSM_O2O商铺_44【DES加密】关键配置信息进行DES加密

ACM排行榜说明

【转】SQL重复记录查询

板球和秃子威力那个大

每日归档

更多

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)