聚类,是无监督学习的代表,将数据集D划分成了若干个不相交的子集,称为簇,我们总体的目标是“簇间相似性越低越好,簇内相似性越高越好”。
1.性能度量指标——外部指标
外部指标:聚类结果与某个“参考模型”进行比较。
对数据集,假设通过聚类划分为,参考模型的划分为:,令和分别表示和的标记。则令
可以看出
- Jaccard系数(JC)
- FM指数(FMI)
- Rand指数(RI)
显然,上述性能指标的都在[0,1]之内,且越大越好。
2. 几个距离计算公式
定义为某一个距离度量,给定样本与
- 闵可夫斯基距离
- 欧式距离 ()
- 曼哈顿距离()
以上三种距离可以进行有序属性的划分
- Value Difference Metric(VDM)
VDM可以进行无序属性的划分
- Minkov_VDM
闵可夫斯基距离与VDM的混合可以用于混合属性。
当样本空间的不同属性重要性不同时,可以使用“加权距离”。
3.性能度量指标——内部指标
内部指标:直接考察聚类结果而不利用任何参考模型。
考虑到聚类结果的簇划分,定义:
簇内样本间的平均距离:
簇内样本间的最远距离:
簇间样本间的最短距离:
簇间样本间中心点距离: , 其中,,被称作是簇C的样本中心。
- DB指数
- Dunn指数
显然,DBI越小越好,DB越大越好。