1.特征处理:通过特定的统计方法(数学方法)将数据转换成算法要求的数据。
2.不同的数据类型有不同的处理方法:
数值型数据:标准缩放: 1、归一化 2、标准化 3、缺失值
类别型数据:one-hot编码
时间类型:时间的切分
3.sklearn特征处理API:sklearn. preprocessing
4.归一化:通过对原始数据进行变换把数据映射到(默认为[0,1])之间。
(公式分两步,计算了第一个x,还要计算第二个x)
注:公式作用于每一列,max为一列的最大值,min为一列的最小值,那么X’’ 为最终结果,mx,mi分别为指定区间值,默认mx为1,mi为0。
5.归一化公式计算过程: