分类是一种常见的机器学习算法,是一种有监督的算法。简单说就是给出学习集数据都是带标签的,通过训练学习集数据获得模型,对未来给出的实际数据,根据模型进行分类。这里采用K最近邻算法(KNN,K-nearest neighbour)
KNN算法非常直观,容易理解,就是寻找K个距离最近的邻居,看这K个近邻中哪个分类标签多,样本就归于哪类。
下面以一个对学生文理、综合分类问题进行实例操作。
数据文件是一个学生成绩及分类表,样式如下
ID yingyu yuwen shuxue ClassifyResult
0 0 80 80 79 3
1 1 99 89 60 1
2 2 60 78 90 2
3 3 90 70 88 3
4 4 66 77 88 2
代码如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
|
运行结果如下:
[3 1 1 3 3 3 1 1 3 2 2 3 1 3 1 3 3 3 3 1]
[2 3 3 3 3 3 1 1 2 2 2 3 1 3 1 3 1 1 3 3]
预测结果的正确率是***0.65***
此次预测的正确率为0.65,并不是很高,主要是输入训练文件质量不高造成的。但这个小程序实现了KNN分类算法的全部功能,还是值得借鉴的