层次聚类算法汉语版

层次聚类Hierarchical Clustering
1.介绍
层次聚类是无监督学习方法，可对给定的N个待聚类的样本进行层次的分类，直到某种条件（类的个数、类间的距离超过某个阈值）满足为止。
层次聚类的划分：
a. 凝聚的层次聚类AGNES算法(DIvisive ANALysis)：
采用自底向上的策略：先将每个样本作为一个簇（类），然后不断地计算各个类之间的相似度/距离、并合并最相近的两个类成一个大类，直到某个终止条件满足为止。（可与哈夫曼编码算法作类比）
b. 分裂的层次聚类DIANA算法 (DIvisive ANALysis)：
采用自顶向下的策略，先将所有样本置于一个簇（类）中，然后根据一些原则逐渐细分为越来越小的类，直到某个终止条件满足为止。（可与决策树算法作类比）
至于判断“类”的方法就是最短距离法、最长距离法、中间距离法、类平均法等等（其中类平均法往往被认为是最常用也最好用的方法，一方面因为其良好的单调性，另一方面因为其空间扩张/浓缩的程度适中）。
2、层次聚类的流程
大多数层次聚类属于凝聚型层次聚类，它们只是在簇间相似度的定义上有所不同。这里给出采用最小距离的凝聚层次聚类算法流程：
在这里插入图片描述
(1) 将每个对象看作一类，计算两两之间的最小距离；
(2) 将距离最小的两个类合并成一个新类；
(3) 重新计算新类与所有类之间的距离；
(4) 重复(2)、(3)，直到所有类最后合并成一类。
3.优缺点
优点：1，距离和规则的相似度容易定义，限制少；2，不需要预先制定聚类数；3，可以发现类的层次关系；4，可以聚类成其它形状
缺点：1，计算复杂度太高；2，奇异值也能产生很大影响；3，算法很可能聚类成链状

lyp___

发布了19 篇原创文章 · 获赞 0 · 访问量 727

私信关注

层次聚类算法汉语版

猜你喜欢