29.聚类---性能度量
一、性能度量
聚类的性能度量也称作聚类的有效性指标。
聚类的性能度量分两类:
- 聚类结果与某个参考模型进行比较,称作外部指标;
- 直接考察聚类结果而不利用任何参考模型,称作内部指标。
1. 外部指标
对于数据集D=x1,x2,...,xND=x1,x2,...,xN,假定通过聚类给出的簇划分为C=C1,C2,...,CKC=C1,C2,...,CK,参考模型给出的簇划分为C∗={C∗1,C∗2,...,C∗K}C∗={C1∗,C2∗,...,CK∗},其中KK和K′K′不一定相等。
令λ,λ∗λ,λ∗分别表示C,C∗C,C∗的簇标记向量。定义:
其中|·|表示集合的元素的个数,各集合的意义为:
- SSSS:包含了同时隶属于C,C∗C,C∗的样本对;
- SDSD:包含了隶属于CC,但是不隶属于C∗C∗的样本对;
- DSDS:包含了不隶属于CC,但是隶属于C∗C∗的样本对;
- DDDD:包含了同时不隶属于C,C∗C,C∗的样本对;
由于每个样本对(xi,xj)(xi,xj),i<ji<j仅能出现在一个集合中,因此有
a+b+c+d=N(N−1)2a+b+c+d=N(N−1)2
下面性能度量的结果都在[0,1]之间,这些值越大,说明聚类的性能越好。
1.1 Jaccard系数
Jaccard系数Jaccard Coefficient:JC=aa+b+cJC=aa+b+c
它刻画了所有的同类的样本对(要么在C中属于同类,要么在C*中属于同类)中,同时隶属于C,C∗C,C∗的样本对的比例。
1.2 FM指数
FM指数Fowlkes and Mallows Index:FMI=aa+b⋅aa+c−−−−−−−√FMI=aa+b·aa+c
它刻画的是:
- 在CC中同类的样本对中,同时隶属于C∗C∗的样本对的比例为p1=aa+bp1=aa+b
- 在C∗C∗中同类的样本对中,同时隶属于CC的样本对的比例为p2=aa+cp2=aa+c
- FMI就是p1p1和p2p2的几何平均。
1.3 Rand指数
Rand指数Rand Index:RI=a+dN(N−1)/2RI=a+dN(N−1)/2
它刻画的是:
- 同时隶属于C,C∗C,C∗的同类样本对(这种样本对属于同一个簇的概率最大)与既不隶属于CC、又不隶属于C∗C∗的非同类样本对(这种样本对不是同一个簇的概率最大)之和,占所有样本对的比例。
- 这个比例其实就是聚类的可靠程度的度量。
1.4 ARI指数
使用RI有关问题:对于随机聚类,RI指数不保证接近0(可能还很大)。
ARI指数就通过利用随机聚类来解决这个问题。
定义一致性矩阵为:
其中:
- sisi为属于簇CiCi的样本的数量,titi为属于簇C∗iCi∗的样本的数量。
- ni,jni,j为同时属于簇CiCi和簇C∗iCi∗的样本的数量。
则根据定义有:∑i∑jC2ni,j∑i∑jCni,j2,其中C2n=n(n−1)2Cn2=n(n−1)2表示组合数,数字2是因为需要提取两个样本组成样本对。
定义ARI指数Adjusted Rand Index:
- 随机挑选一对样本,一共有C2NCN2种情形。
- 这对样本隶属于CC中的同一个簇,一共有∑iC2si∑iCsi2种可能。
- 这对样本隶属于C∗C∗中的同一个簇,一共有∑jC2tj∑jCtj2种可能。
- 这对样本隶属于CC中的同一个簇、且属于C∗C∗中的同一个簇,一共有∑iC2si∑jC2tj∑iCsi2∑jCtj2种可能。
- 则在随机划分的情况下,同时隶属于C,C∗C,C∗的样本对的期望为:[∑iC2si∑jC2tj]/C2N[∑iCsi2∑jCtj2]/CN2
2. 内部指标
对于数据集D=x1,x2,...,xND=x1,x2,...,xN,假定通过聚类给出的簇划分为C=C1,C2,...,CKC=C1,C2,...,CK
定义:
其中,distance(xi,xj)distance(xi,xj)表示两点xi,xjxi,xj之间的距离;ukuk表示簇CkCk的中心点,ulul表示簇ClCl的中心点,distance(uk,ul)distance(uk,ul)表示簇Ck,ClCk,Cl的中心点之间的距离。
2.1 DB指数
DB指数Davies-Bouldin Index:DBI=1K∑Kk=1maxk≠l(avg(Ck+avg(Cl))dcen(Ck,Cl))DBI=1K∑k=1Kmaxk≠l(avg(Ck+avg(Cl))dcen(Ck,Cl))
其物理意义为:
- 给定两个簇,每个簇样本距离均值之和比上两个簇的中心点之间的距离作为度量。该度量越小越好。
- 给定一个簇k,遍历其他的簇,寻找该度量的最大值。
- 对所有的簇,取其最大度量的均值。
DBI越小越好,
- 如果每个簇样本距离均值越小(即簇内样本距离都很近),则DBI越小。
- 如果簇间中心点的距离越大(即簇间样本距离相互都很远),则DBI越小。
2.2 Dunn指数
Dunn指数Dunn Index:DI=mink≠ldmin(Ck,Cl)maxidiam(Ci)DI=mink≠ldmin(Ck,Cl)maxidiam(Ci)
其物理意义为:任意两个簇之间最近的距离的最小值,除以任意一个簇内距离最远的两个点的距离的最大值。
DI越大越好,
- 如果任意两个簇之间最近的距离的最小值越大(即簇间样本距离相互都很远),则DI越大。
- 如果任意一个簇内距离最远的两个点的距离的最大值越小(即簇内样本距离都很近),则DI越大。
3. 距离度量
3.1 闵可夫斯基距离Minkowski distance
给定样本Xi=(xi,1,xi,2,...,xi,n)Xi=(xi,1,xi,2,...,xi,n),Xj=(xj,1,xj,2,...,xj,n)Xj=(xj,1,xj,2,...,xj,n),则闵可夫斯基距离定义为:distance(Xi,Xj)=(∑nd=1|xi,d−xj,d|p)1/pdistance(Xi,Xj)=(∑d=1n|xi,d−xj,d|p)1/p
- 当p=2p=2时,闵可夫斯基距离就是欧式距离Euclidean distance:distance(Xi,Xj)=||Xi−Xj||2=∑nd=1|xi,d−xj,d|2)−−−−−−−−−−−−−−−√distance(Xi,Xj)=||Xi−Xj||2=∑d=1n|xi,d−xj,d|2)
- 当p=1p=1时,闵可夫斯基距离就是曼哈顿距离Euclidean distance:distance(Xi,Xj)=||Xi−Xj||1=∑nd=1|xi,d−xj,d|distance(Xi,Xj)=||Xi−Xj||1=∑d=1n|xi,d−xj,d|
3.2 VDM距离 value Difference Metric
考虑非数值类属性(如属性取值为:中国,印度,美国,英国),令md,amd,a表示xd=axd=a的样本数;md,a,kmd,a,k表示xd=axd=a且位于簇CkCk中的样本的数量。则在属性dd上的两个取值a,ba,b之间的VDM距离为:
VDMp(a,b)=(∑Kk=1|md,a,kmd,a−md,b,kmd,b|p)1/pVDMp(a,b)=(∑k=1K|md,a,kmd,a−md,b,kmd,b|p)1/p
该距离刻画的是:属性取值在各簇上的频率分布之间的差异。
3.3 混合距离
当样本的属性为数值属性与非数值属性混合时,可以将闵可夫斯基距离与VDM距离混合使用。
假设属性x1,x2,...,xncx1,x2,...,xnc为数值属性,属性xnc+1,xnc+2,...,xnxnc+1,xnc+2,...,xn为非数值属性。则:distance(Xi,Xj)=(∑ncd=1|xi,d−xj,d|p+∑nd=nc+1VDMp(xi,d,xj,d)p)1/pdistance(Xi,Xj)=(∑d=1nc|xi,d−xj,d|p+∑d=nc+1nVDMp(xi,d,xj,d)p)1/p
3.4 加权距离
当样本空间中不同属性的重要性不同时,可以采用加权距离。以加权闵可夫斯基距离为例:distance(Xi,Xj)=(∑nd=1wd|xi,d−xj,d|p)1/p,wd>=0,d=1,2,...,n;∑nd=1wd=1distance(Xi,Xj)=(∑d=1nwd|xi,d−xj,d|p)1/p,wd>=0,d=1,2,...,n;∑d=1nwd=1
这里的距离度量满足三角不等式:distance(Xi,Xj)<=distance(Xi,Xk)+distance(Xk,Xj)distance(Xi,Xj)<=distance(Xi,Xk)+distance(Xk,Xj)
【注意】余弦距离不是一个严格定义的距离,其满足正定性,对称性,但是不满足三角不等式。余弦相似度在高维的情况下依然保持“相同时为1,正交时为0,相反时为-1”的性质。欧式距离的数值受维度的影响,范围不固定,并且含义也比较模糊。欧式距离体现数值上的绝对差异,而余弦距离体现方向上的相对差异。
一、性能度量
聚类的性能度量也称作聚类的有效性指标。
聚类的性能度量分两类:
- 聚类结果与某个参考模型进行比较,称作外部指标;
- 直接考察聚类结果而不利用任何参考模型,称作内部指标。
1. 外部指标
对于数据集D=x1,x2,...,xND=x1,x2,...,xN,假定通过聚类给出的簇划分为C=C1,C2,...,CKC=C1,C2,...,CK,参考模型给出的簇划分为C∗={C∗1,C∗2,...,C∗K}C∗={C1∗,C2∗,...,CK∗},其中KK和K′K′不一定相等。
令λ,λ∗λ,λ∗分别表示C,C∗C,C∗的簇标记向量。定义:
其中|·|表示集合的元素的个数,各集合的意义为:
- SSSS:包含了同时隶属于C,C∗C,C∗的样本对;
- SDSD:包含了隶属于CC,但是不隶属于C∗C∗的样本对;
- DSDS:包含了不隶属于CC,但是隶属于C∗C∗的样本对;
- DDDD:包含了同时不隶属于C,C∗C,C∗的样本对;
由于每个样本对(xi,xj)(xi,xj),i<ji<j仅能出现在一个集合中,因此有
a+b+c+d=N(N−1)2a+b+c+d=N(N−1)2
下面性能度量的结果都在[0,1]之间,这些值越大,说明聚类的性能越好。
1.1 Jaccard系数
Jaccard系数Jaccard Coefficient:JC=aa+b+cJC=aa+b+c
它刻画了所有的同类的样本对(要么在C中属于同类,要么在C*中属于同类)中,同时隶属于C,C∗C,C∗的样本对的比例。
1.2 FM指数
FM指数Fowlkes and Mallows Index:FMI=aa+b⋅aa+c−−−−−−−√FMI=aa+b·aa+c
它刻画的是:
- 在CC中同类的样本对中,同时隶属于C∗C∗的样本对的比例为p1=aa+bp1=aa+b
- 在C∗C∗中同类的样本对中,同时隶属于CC的样本对的比例为p2=aa+cp2=aa+c
- FMI就是p1p1和p2p2的几何平均。
1.3 Rand指数
Rand指数Rand Index:RI=a+dN(N−1)/2RI=a+dN(N−1)/2
它刻画的是:
- 同时隶属于C,C∗C,C∗的同类样本对(这种样本对属于同一个簇的概率最大)与既不隶属于CC、又不隶属于C∗C∗的非同类样本对(这种样本对不是同一个簇的概率最大)之和,占所有样本对的比例。
- 这个比例其实就是聚类的可靠程度的度量。
1.4 ARI指数
使用RI有关问题:对于随机聚类,RI指数不保证接近0(可能还很大)。
ARI指数就通过利用随机聚类来解决这个问题。
定义一致性矩阵为:
其中:
- sisi为属于簇CiCi的样本的数量,titi为属于簇C∗iCi∗的样本的数量。
- ni,jni,j为同时属于簇CiCi和簇C∗iCi∗的样本的数量。
则根据定义有:∑i∑jC2ni,j∑i∑jCni,j2,其中C2n=n(n−1)2Cn2=n(n−1)2表示组合数,数字2是因为需要提取两个样本组成样本对。
定义ARI指数Adjusted Rand Index:
- 随机挑选一对样本,一共有C2NCN2种情形。
- 这对样本隶属于CC中的同一个簇,一共有∑iC2si∑iCsi2种可能。
- 这对样本隶属于C∗C∗中的同一个簇,一共有∑jC2tj∑jCtj2种可能。
- 这对样本隶属于CC中的同一个簇、且属于C∗C∗中的同一个簇,一共有∑iC2si∑jC2tj∑iCsi2∑jCtj2种可能。
- 则在随机划分的情况下,同时隶属于C,C∗C,C∗的样本对的期望为:[∑iC2si∑jC2tj]/C2N[∑iCsi2∑jCtj2]/CN2
2. 内部指标
对于数据集D=x1,x2,...,xND=x1,x2,...,xN,假定通过聚类给出的簇划分为C=C1,C2,...,CKC=C1,C2,...,CK
定义:
其中,distance(xi,xj)distance(xi,xj)表示两点xi,xjxi,xj之间的距离;ukuk表示簇CkCk的中心点,ulul表示簇ClCl的中心点,distance(uk,ul)distance(uk,ul)表示簇Ck,ClCk,Cl的中心点之间的距离。
2.1 DB指数
DB指数Davies-Bouldin Index:DBI=1K∑Kk=1maxk≠l(avg(Ck+avg(Cl))dcen(Ck,Cl))DBI=1K∑k=1Kmaxk≠l(avg(Ck+avg(Cl))dcen(Ck,Cl))
其物理意义为:
- 给定两个簇,每个簇样本距离均值之和比上两个簇的中心点之间的距离作为度量。该度量越小越好。
- 给定一个簇k,遍历其他的簇,寻找该度量的最大值。
- 对所有的簇,取其最大度量的均值。
DBI越小越好,
- 如果每个簇样本距离均值越小(即簇内样本距离都很近),则DBI越小。
- 如果簇间中心点的距离越大(即簇间样本距离相互都很远),则DBI越小。
2.2 Dunn指数
Dunn指数Dunn Index:DI=mink≠ldmin(Ck,Cl)maxidiam(Ci)DI=mink≠ldmin(Ck,Cl)maxidiam(Ci)
其物理意义为:任意两个簇之间最近的距离的最小值,除以任意一个簇内距离最远的两个点的距离的最大值。
DI越大越好,
- 如果任意两个簇之间最近的距离的最小值越大(即簇间样本距离相互都很远),则DI越大。
- 如果任意一个簇内距离最远的两个点的距离的最大值越小(即簇内样本距离都很近),则DI越大。
3. 距离度量
3.1 闵可夫斯基距离Minkowski distance
给定样本Xi=(xi,1,xi,2,...,xi,n)Xi=(xi,1,xi,2,...,xi,n),Xj=(xj,1,xj,2,...,xj,n)Xj=(xj,1,xj,2,...,xj,n),则闵可夫斯基距离定义为:distance(Xi,Xj)=(∑nd=1|xi,d−xj,d|p)1/pdistance(Xi,Xj)=(∑d=1n|xi,d−xj,d|p)1/p
- 当p=2p=2时,闵可夫斯基距离就是欧式距离Euclidean distance:distance(Xi,Xj)=||Xi−Xj||2=∑nd=1|xi,d−xj,d|2)−−−−−−−−−−−−−−−√distance(Xi,Xj)=||Xi−Xj||2=∑d=1n|xi,d−xj,d|2)
- 当p=1p=1时,闵可夫斯基距离就是曼哈顿距离Euclidean distance:distance(Xi,Xj)=||Xi−Xj||1=∑nd=1|xi,d−xj,d|distance(Xi,Xj)=||Xi−Xj||1=∑d=1n|xi,d−xj,d|
3.2 VDM距离 value Difference Metric
考虑非数值类属性(如属性取值为:中国,印度,美国,英国),令md,amd,a表示xd=axd=a的样本数;md,a,kmd,a,k表示xd=axd=a且位于簇CkCk中的样本的数量。则在属性dd上的两个取值a,ba,b之间的VDM距离为:
VDMp(a,b)=(∑Kk=1|md,a,kmd,a−md,b,kmd,b|p)1/pVDMp(a,b)=(∑k=1K|md,a,kmd,a−md,b,kmd,b|p)1/p
该距离刻画的是:属性取值在各簇上的频率分布之间的差异。
3.3 混合距离
当样本的属性为数值属性与非数值属性混合时,可以将闵可夫斯基距离与VDM距离混合使用。
假设属性x1,x2,...,xncx1,x2,...,xnc为数值属性,属性xnc+1,xnc+2,...,xnxnc+1,xnc+2,...,xn为非数值属性。则:distance(Xi,Xj)=(∑ncd=1|xi,d−xj,d|p+∑nd=nc+1VDMp(xi,d,xj,d)p)1/pdistance(Xi,Xj)=(∑d=1nc|xi,d−xj,d|p+∑d=nc+1nVDMp(xi,d,xj,d)p)1/p
3.4 加权距离
当样本空间中不同属性的重要性不同时,可以采用加权距离。以加权闵可夫斯基距离为例:distance(Xi,Xj)=(∑nd=1wd|xi,d−xj,d|p)1/p,wd>=0,d=1,2,...,n;∑nd=1wd=1distance(Xi,Xj)=(∑d=1nwd|xi,d−xj,d|p)1/p,wd>=0,d=1,2,...,n;∑d=1nwd=1
这里的距离度量满足三角不等式:distance(Xi,Xj)<=distance(Xi,Xk)+distance(Xk,Xj)distance(Xi,Xj)<=distance(Xi,Xk)+distance(Xk,Xj)
【注意】余弦距离不是一个严格定义的距离,其满足正定性,对称性,但是不满足三角不等式。余弦相似度在高维的情况下依然保持“相同时为1,正交时为0,相反时为-1”的性质。欧式距离的数值受维度的影响,范围不固定,并且含义也比较模糊。欧式距离体现数值上的绝对差异,而余弦距离体现方向上的相对差异。