机器学习：《特征工程三部曲》之一数据处理（连续特征和离散特征）

连续型：

1.1 特征归一化：线性放缩到[-1,1],放缩到均值0，方差1.按照特征的行处理数据。目的是在于样本向量在点乘运算或者其他核函数祭祀按相似性时，拥有统一的标准。

1.2 特征标准化：

0-1 标准化：

x(标准化）=（x-最小值）/（最大值-最小值）

按照列处理，通过求Z-score的方法，将样本的特征值转化到同一量纲下。

x(标准化）=（x-均值）/标准差

2 连续变量离散化（有监督离散方法：决策树）：二值化处理：将细粒度的度量转化为粗粒度的度量，使得特征的差异化更大。取整：

3 特征多项式的交互：捕获特征之间的相关性

4 数据分布的倾斜处理：

log变化： log 变化倾向与拉高那些落在较低范围内的自变量取值，压缩那些落在较高的幅度范围内的自变量的取值，log 变化能给稳定数据的方差，是的数据的分布接近正太分布并使得数据与分布的均值无关。Box_Cox 也有相似的效果，出现负数，使用常数进行偏移。

5 缺失值处理

数据补全（用0替换，平均数替换，众数替换，预测模型替换），删除缺失行，不处理

离散型：

1 onehot 编码：可以将离散特征扩展到欧式空间，离散特征的某个取值就对应欧式空间的某个点。特征之间的距离计算或相似度计算是非常重要的，常用的距离或者相似性计算都是在欧式空间的相似度计算，计算余弦相似性，基于的是欧式空间。onehot 会让距离的计算更加合理。

2 dummy encoding 哑变量编码

3 label-encoding 标签编码

4 count-Encoding 频数编码（可以去量纲化，秩序，归一化）

将分类变量替换为训练集中的计数，对线性和非线性算法都很有用，可以对异常值敏感，可以添加对数转化，适用于计数，用1替换看不见的变量，可能会发生冲突：相同的编码，不同的变量。

5 Target encoding 二分类用目标变量中的某一类的比例来编码

为每个分类变量提供唯一的数字ID，适用于非线性基于树的算法，不增加维度，

6 Hash encoding ：

避免及其稀疏的数据

基于书的方法不需要进行特征的归一化，例如随机深林，bagging和boosting等，基于参数或距离的模型，都需要归一化。

1.数值特征

2.类别特征

机器学习：《特征工程三部曲》之一数据处理 （连续特征和离散特征）