简介
C均值算法又叫K-Means算法,其基本思想是,通过迭代找到k个聚类的一种划分方案,使得用这k个聚类的均值来表示相应各类样本时所得到的总体误差最小,所以K-Means是一种基于最小误差平方和准则的聚类算法。由于它在向量量化和图像分割上也有很广泛的应用,所以有时也被称为广义Glogd算法,简称GLA。
误差平方和推导
目标公式:
我们使用了方差增量算法,具体请参考:https://www.cnblogs.com/yoyaprogrammer/p/delta_variance.html
这里我给出增量为1的误差平方和推导过程:
其中,增量样本y,则将增量N=1,增量均值=y,增量方差=0代入,则:
由于其他聚类都没有发生变化,所以总体误差平方和的变化仅仅取决于上述两个公式的变化。显然,移出一样本会导致类的平方误差减小,而移入会导致增大,如果减小量大于增加量,则当前进行的样本移动就有利于总体误差平方和的减少,于是就进行这一移动操作,否则的话不操作。
参考模式识别(第三版)张学工