机器学习———聚类的性能度量指标与距离度量计算

聚类，是无监督学习的代表，将数据集D划分成了若干个不相交的子集，称为簇，我们总体的目标是“簇间相似性越低越好，簇内相似性越高越好”。

1.性能度量指标——外部指标

外部指标：聚类结果与某个“参考模型”进行比较。

对数据集 $D=\left \{ \right.\begin{matrix} x_1 & x_2 & ... & x_m \end{matrix}\left. \right \}$ ,假设通过聚类划分为 $C=\left \{ \right.\begin{matrix} C_1 & C_2 & ... & C_m \end{matrix}\left. \right \}$ ，参考模型的划分为： $C^*=\left \{ \right.\begin{matrix} C^*_1 & C^*_2 & ... & C^*_m \end{matrix}\left. \right \}$ ,令 $\lambda$ 和 $\lambda ^*$ 分别表示 $C$ 和 $C^*$ 的标记。则令

$a=\left | SS \right |, SS=\left \{ \lambda _i = \lambda_j, \lambda^*_i = \lambda^*_j, i<j \right \}$

$b=\left | SD \right |, SD=\left \{ \lambda _i = \lambda_j, \lambda^*_i \neq \lambda^*_j, i<j \right \}$

$c=\left | DS \right |, DS=\left \{ \lambda _i \neq \lambda_j, \lambda^*_i = \lambda^*_j, i<j \right \}$

$d=\left | DD \right |, DD=\left \{ \lambda _i \neq \lambda_j, \lambda^*_i \neq \lambda^*_j, i<j \right \}$

可以看出 $a+b+c+d = m(m-1)/2$

Jaccard系数(JC) $JC=\frac{a}{a+b+c}$
FM指数(FMI) $FMI = \sqrt{\frac{a}{a+b}\frac{a}{a+c}}$
Rand指数(RI) $RI=\frac{2(a+d)}{m(m-1)}$

显然，上述性能指标的都在[0,1]之内，且越大越好。

2. 几个距离计算公式

定义 $dist(.,.)$ 为某一个距离度量，给定样本 $\mathbf{x_i}=(x_{i1};x_{i2};...x_{in})$ 与 $\mathbf{x_j}=(x_{j1};x_{j2};...x_{jn})$

闵可夫斯基距离 $dist_{mk}(x_i,x_j)=\left \| x_i-x_j \right \|_p=\left ( \sum |x_{iu}-x_{ju}|^p \right )^{\frac{1}{p}}$
欧式距离 ( $p=2$ ) $dist_{ed}(x_i,x_j)=\left \| x_i-x_j \right \|_2=\left ( \sum |x_{iu}-x_{ju}|^2 \right )^{\frac{1}{2}}$
曼哈顿距离( $p=1$ ) $dist_{man}(x_i,x_j)=\left \| x_i-x_j \right \|_1= \sum |x_{iu}-x_{ju}|$

以上三种距离可以进行有序属性的划分

Value Difference Metric(VDM) $VDM_p(a,b)=\sum \left | \frac{m_{u,a,i}}{m_{u,a}} -\frac{m_{u,b,i}}{m_{u,b}} \right |$

VDM可以进行无序属性的划分

Minkov_VDM $MinkovVDM_p(x_i,x_j)=(\sum |x_{iu}-x_{ju}|^p+\sum VDM_p(x_{iu},x_{ju}) )^\frac{1}{p}$

闵可夫斯基距离与VDM的混合可以用于混合属性。

当样本空间的不同属性重要性不同时，可以使用“加权距离”。

3.性能度量指标——内部指标

内部指标：直接考察聚类结果而不利用任何参考模型。

考虑到聚类结果的簇划分 $C=\left \{ \right.\begin{matrix} C_1 & C_2 & ... & C_m \end{matrix}\left. \right \}$ ，定义：

簇内样本间的平均距离： $avg(C)=\frac{2}{|C|(|C|-1)}\sum _{1\leq i<j\leq |C|}dist(x_i,x_j)$

簇内样本间的最远距离： $diam(C)=max_{1\leq i<j\leq |C|} dist(x_i,x_j)$

簇间样本间的最短距离： $d_{min}(C_i,C_j)=min_{x_i \in C_i,x_j \in C_j}dist(x_i,x_j)$

簇间样本间中心点距离： $d_{cen}(C_i,C_j)=dist(\mu_{i},\mu_{j})$ , 其中， $\mu=\frac{1}{|C|}\sum _{1\leq i\leq |C|}x_i$ ,被称作是簇C的样本中心。

DB指数 $DBI=\frac{1}{k}\sum _1^k max_{j \neq i} (\frac{avg(C_i)+avg(C_j)}{d_{cen}(\mu_i,\mu_j)})$
Dunn指数 $DB=\min_{1\leq i \leq k}\left \{ \min_{j \neq i} \left ( \frac{d_{min}(C_i,C_j)}{\max_{1\leq l\leq k}diam(C_l)} \right )\right \}$

显然，DBI越小越好，DB越大越好。