数据归一化（标准化）

数据归一化

数据预处理中，标准的第一步是数据归一化。虽然这里有一系列可行的方法，但是这一步通常是根据数据的具体情况而明确选择的。特征归一化常用的方法包含如下几种：

min-max标准化（Min-Max Normalization）（线性函数归一化）

定义：也称为离差标准化，是对原始数据的线性变换，使得结果映射到0-1之间。

本质：把数变为[0,1]之间的小数。

转换函数：（X-Min/(Max-Min)

如果想要将数据映射到[-1,1]，则将公式换成：（X-Mean/(Max-Min)

其中：max为样本数据的最大值，min为样本数据的最小值，Mean表示数据的均值。

缺陷：当有新数据加入时，可导致max和min的变化，需要重新定义。

Z-score标准化

定义：这种方法给与原始数据的均值（mean）和标准差（standard deviation）进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1.

本质：把有量纲表达式变成无量纲表达式。

转换函数：（X-Mean）/(Standard deviation)

其中，Mean为所有样本数据的均值。Standard deviation为所有样本数据的标准差。

逐样本均值消减

如果你的数据是平稳的（即数据每一个维度的统计都服从相同分布），那么你可以考虑在每个样本上减去数据的统计平均值(逐样本计算)。

Eg：对于图像，这种归一化可以移除图像的平均亮度值 (intensity)。很多情况下我们对图像的照度并不感兴趣，而更多地关注其内容，这时对每个数据点移除像素的均值是有意义的。

注意：虽然该方法广泛地应用于图像，但在处理彩色图像时需要格外小心，具体来说，是因为不同色彩通道中的像素并不都存在平稳特性。