我们在现实世界中处理大量的原始数据。机器学习算法期望数据在开始培训过程之前以某种方式格式化。首先定义样本数据如下:
1 input_data=np.array([[5.1,-2.9,3.3],
2 [-1.2,7.8,-6.1],
3 [3.9,0.4,2.1],
4 [7.3,-9.9,-4.5]])
Binarization
Binarization将大于阈值的数据转化为1,将小于阈值的数据转化为0。
1 #binarize data
2 data_binarized=preprocessing.Binarizer(threshold=2.1).transform(input_data)
3 print("\nBinarized data:\n",data_binarized)
调用预处理内建函数输出如下:
1 Binarized data:
2 [[1. 0. 1.]
3 [0. 1. 0.]
4 [1. 0. 0.]
5 [1. 0. 0.]]