笔记抄写2——sklearn聚类相关

一、Kmeans

1.欧几里德距离在高维度时会膨胀,所以先做降维

2.终止条件是新旧中心点的距离小于一个阈值,即中心点几乎不再动了

3.由于初始中心点对结果影响很大,所以要选不同的初始点多次建模

二、AffinityPropagation

原理:目的是找到一些标本点,可以代表所有样本。

两样本点间互通的信息有两种:

responsibility(吸引度) r(i,k)表示k样本可以作为i样本的标本的程度

availability(归属度) a(i,k)表示i样本应该选k为标本的程度

初始时r和a的值为0

为防止数据振动,引入阻尼系数lambda来校正

三、HierarchicalClustering 层次聚类

合并类的方法有:

ward:最小化类间方差和

complete:最小化最远距离

average:最小化平均距离

距离算法可选

猜你喜欢

转载自blog.csdn.net/rona1/article/details/80511655