连续型:
1.1 特征归一化:线性放缩到[-1,1],放缩到均值0,方差1.按照特征的行处理数据。目的是在于样本向量在点乘运算或者其他核函数祭祀按相似性时,拥有统一的标准。
1.2 特征标准化:
0-1 标准化:
x(标准化)=(x-最小值)/(最大值-最小值)
按照列处理,通过求Z-score的方法,将样本的特征值转化到同一量纲下。
x(标准化)=(x-均值)/标准差
2 连续变量离散化(有监督离散方法:决策树):二值化处理 : 将细粒度的度量转化为粗粒度的度量,使得特征的差异化更大。取整:
3 特征多项式的交互:捕获特征之间的相关性
4 数据分布的倾斜处理:
log变化: log 变化倾向与拉高那些落在较低范围内的自变量取值,压缩那些落在较高的幅度范围内的自变量的取值,log 变化能给稳定数据的方差,是的数据的分布接近正太分布并使得数据与分布的均值无关。Box_Cox 也有相似的效果,出现负数,使用常数进行偏移。
5 缺失值处理
数据补全(用0替换 ,平均数替换 ,众数替换 ,预测模型替换),删除缺失行,不处理
离散型:
1 onehot 编码: 可以将离散特征扩展到欧式空间,离散特征的某个取值就对应欧式空间的某个点。特征之间的距离计算或相似度计算是非常重要的,常用的距离或者相似性计算都是在欧式空间的相似度计算,计算余弦相似性,基于的是欧式空间。onehot 会让距离的计算更加合理。
2 dummy encoding
哑变量编码
3 label-encoding
标签编码
4 count-Encoding
频数编码 (可以去量纲化,秩序,归一化)
将分类变量替换为训练集中的计数,对线性和非线性算法都很有用,可以对异常值敏感,可以添加对数转化,适用于计数,用1替换看不见的变量,可能会发生冲突: 相同的编码,不同的变量。
5 Target encoding
二分类 用目标变量中的某一类的比例来编码
为每个分类变量提供唯一的数字ID,适用于非线性基于树的算法,不增加维度,
6 Hash encoding :
避免及其稀疏的数据
基于书的方法不需要进行特征的归一化,例如随机深林,bagging和boosting等,基于参数或距离的模型,都需要归一化。
1.数值特征
- rounding
- binning
- scaling
- imputation
- interactions
- no linear encoding
- row statistics
2.类别特征
- one-hot encoding
- hash encoding
- label encoding
- count encoding
- label-count encoding
- target encoding
- category embedding
- Nan encoding
- polynomial encoding
- expansion encoding
- consolidation encoding