(机器学习)C均值算法之误差平方和推导

简介

C均值算法又叫K-Means算法,其基本思想是,通过迭代找到k个聚类的一种划分方案,使得用这k个聚类的均值来表示相应各类样本时所得到的总体误差最小,所以K-Means是一种基于最小误差平方和准则的聚类算法。由于它在向量量化和图像分割上也有很广泛的应用,所以有时也被称为广义Glogd算法,简称GLA。

误差平方和推导

目标公式:

我们使用了方差增量算法,具体请参考:https://www.cnblogs.com/yoyaprogrammer/p/delta_variance.html

这里我给出增量为1的误差平方和推导过程:

其中,增量样本y,则将增量N=1,增量均值=y,增量方差=0代入,则:

 

由于其他聚类都没有发生变化,所以总体误差平方和的变化仅仅取决于上述两个公式的变化。显然,移出一样本会导致类的平方误差减小,而移入会导致增大,如果减小量大于增加量,则当前进行的样本移动就有利于总体误差平方和的减少,于是就进行这一移动操作,否则的话不操作。

参考模式识别(第三版)张学工

猜你喜欢

转载自blog.csdn.net/qq_24598059/article/details/90666403