代码部分:https://jkchen.blog.csdn.net/article/details/103338207
无监督学习
给出只有特征值的数据,自行分成多个相似的簇。
以下是两个特征值的可视化情况:
你需要做到的结果大致如下:
K-Means算法
流程:
- 先随机K个点,作为K个簇的中心;
- 然后对于每个样本点,寻找最近的中心,并加入那个簇;
- 每个簇的中心变为簇中的所有样本点的均值点;
- 重复这个过程直到不发生变化。
定义:
- 为第i个样本点;
- 为第k个簇的中心点;
- 为第i个样本点的所属簇;
- (畸变函数)为 ,即每个样本点到所属簇中心点的距离的平分和。
想法:
- 我们做第二步(寻找每个样本点的簇)是为了通过改变 来减小 ;
- 做第三步(寻找每个簇的中心)是为了通过改变 来减小 ;
- 两种分类方法的优劣可以通过 的大小进行比较。
优化(重点):
- 随机空间上的点过于随机,我们可以用随机样本点来代替;
- 初始值的选择很大程度上影响最后的结果,可能导致局部最优解,所以我们可以多做几次;
- 多做几次只有当K较小(小于10)时作用较大。
K的选择
很大程度上由主观决定。
虽然很多时候不能做到可视化,但是可以根据实际需求决定。例如为了做衣服,按照用户的身高体重,将用户分为三类,对应衣服的 。
如果不能确定,可以使用“肘部法则”(不能指望。。。):