机器学习：聚类

本文主要内容摘自：周志华，《机器学习》，清华大学出版社。

文章目录

1、聚类任务
2、性能度量

2.1 外部指标
2.2 内部指标

3、距离计算

1、聚类任务

聚类试图将数据集中的样本划分为若干个通常是不相交的子集。形式化来说，假定样本集 ${ \mathcal D}=\{{\bf x}_1,{\bf x}_2,\ldots,{\bf x}_m\}$ 包含 $m$ 个无标记样本，每个样本 ${\bf x}_i=(x_{i1};x_{i2};\ldots,x_{in};)$ 是一个 $n$ 维向量，则聚类算法将样本集 $\mathcal D$ 划分为 $k$ 个不相交的簇 $\{{ C}_l| l=1,2,\ldots,k\}$ ，其中 $C_{l'}\cap_{l' =\not l}C_l=\Phi$ 且 $D=\cup_{l=1}^{k}C_l$ 。相应地，我们用 $\lambda_j\in \{1,2,\ldots,k\}$ 表示样本 ${\bf x}_j$ 的簇标记(cluster label)，即 ${\bf x}_j\in C_{\lambda_j}$ 。于是，聚类的结果可用包含 $m$ 个元素的簇标记向量 ${\bm \lambda}=(\lambda_1,\lambda_2,\ldots,\lambda_m)$ 来表示。
下面先来讨论聚类算法涉及的两个基本问题–性能度量和距离计算。

2、性能度量

直观来说，聚类算法应该是簇内相似度(intra-cluster similarity)高，且簇间相似度(inter-cluster similarity)低。
聚类性能度量大致来说分为两类。第一类是将聚类结果与某个参考模型（reference model）进行比较，因而称为外部指标（external index）；另一类是直接考查聚类结果而不利用任何参考模型，称为内部指标（internal index）。

2.1 外部指标

对数据集 $D=\{{\bf x}_i, {\bf x}_2,\ldots,{\bf x}_m\}$ ，假定经过聚类给出的簇划分为 ${\mathcal C}=\{ C_1, C_2,\ldots,C_k\}$ ，参考模型给出的簇划分为 ${\mathcal C}^*=\{C_1^*,C_2^*,\ldots,C_s^*\}$ 。相应地，令 $\bm \lambda$ 和 $\bm \lambda^*$ 分别表示 $\mathcal C$ 和 $\mathcal C^*$ 对应的簇标记向量。我们将样本两两配对考虑，定义
$a=|{\mathcal SS}|，{\mathcal SS}=\{({\bf x}_i,{\bf x}_j)|\lambda_i=\lambda_j,\lambda_i^*=\lambda_j^*,i\le j\},\\ b=|{\mathcal SD}|，{\mathcal SD}=\{({\bf x}_i,{\bf x}_j)|\lambda_i=\lambda_j,\lambda_i^*=\not\lambda_j^*,i\le j\},\\ c=|{\mathcal DS}|，{\mathcal DS}=\{({\bf x}_i,{\bf x}_j)|\lambda_i=\not \lambda_j,\lambda_i^*=\lambda_j^*,i\le j\},\\ d=|{\mathcal DD}|，{\mathcal DD}=\{({\bf x}_i,{\bf x}_j)|\lambda_i=\not\lambda_j,\lambda_i^*=\not\lambda_j^*,i\le j\},\\$ 其中，集合 $\mathcal SS$ 包含了在 $\mathcal C$ 中隶属于相同簇，在 $\mathcal C^*$ 中也隶属于相同簇的样本对；集合 $\mathcal SD$ 包含了在 $\mathcal C$ 中隶属于相同簇，但在 $\mathcal C^*$ 中隶属于不同簇的样本对；集合 $\mathcal DS$ 包含了在 $\mathcal C$ 中隶属于不同簇，在 $\mathcal C^*$ 中隶属于相同簇的样本对；集合 $\mathcal DD$ 包含了在 $\mathcal C$ 中和 $\mathcal C^*$ 中都隶属于不同簇的样本对。由于每个样本对 $({\bf x}_i,{\bf x}_j)(i\le j)$ 都只能出现在一个集合中，因此有 $a+b+c+d=C_m^2=\frac{m(m-1)}{2}$ 。
常用聚类性能度量外部指标包括：

Jaccard系数（Jaccard Coefficient, JC)
${\rm JC}=\frac{a}{b+c+d}.$
FM指数（Fowlkes and Mallows Index, FM)
${\rm FMI}=\sqrt{\frac{a}{a+b}\cdot \frac{a}{a+c}}$
Rand指数（Rand Index，RI）
${\rm RI}=\frac{2(a+d)}{m(m-1)}.$
显然，上述性能度量的结果都在[0,1]区间，值越大越好。

2.2 内部指标

对于簇划分${\mathcal C}={C_1,C_2,\ldots,C_k}，定义
$\begin{aligned} {\rm avg}({\mathcal C})&=\frac{2}{|{\mathcal C}|(|{\mathcal C}|-1)}\sum_{1\le i<j \le |{\mathcal C}|}{\rm dist}({\bf x}_i,{\bf x}_j),\\ {\rm diam}({\mathcal C})&=\max_{{1\le i<j \le |{\mathcal C}|}}{\rm dist}({\bf x}_i,{\bf x}_j),\\ d_{\min}({\mathcal C}_i,{\mathcal C}_j)&=\min_{{\bf x}_i\in {\mathcal C}_i,{\bf x}_j\in {\mathcal C}_j}{\rm dist}({\bf x}_i,{\bf x}_j),\\ d_{\rm cen}({\mathcal C}_i,{\mathcal C}_j)&={\rm dist}({\bm \mu}_i,{\bm \mu}_j), \end{aligned}$ 其中， ${\rm dist}(\cdot,\cdot)$ 用于计算两个样本之间的距离； ${\bm \mu}$ 代表簇 $\mathcal C$ 的中心点 ${\bm \mu}=\frac{1}{|{\mathcal C}|}\sum_{1\le i\le |{\mathcal C}|}{\bf x}_i$ 。显然, ${\rm avg}(\mathcal C)$ 对应于簇C内样本间的平均距离； ${\rm diam}(\mathcal C)$ 对应于簇C内样本间的最远距离； $d_{\min}({\mathcal C}_i,{\mathcal C}_j)$ 对应于簇 ${\mathcal C}_i$ 与 ${\mathcal C}_j$ 最近样本间的距离 $d_{\rm cen}({\mathcal C}_i,{\mathcal C}_j)$ 对应于簇 ${\mathcal C}_i$ 与 ${\mathcal C}_j$ 中心点间的距离。
常用聚类性能度量内部指标包括：

DB指数（Davies-Bouldin Index, DBI）
${\rm DBI}=\frac{1}{k}\sum_{i=1}^{k}\max_{j=\not i}{\Large[} \frac{{\rm avg}({\mathcal C}_i)+{\rm avg}({\mathcal C}_j)}{d_{\rm cen}({\mathcal C}_i,{\mathcal C}_j)}\Large].$
Dunn指数（Dunn Index, DI）
${\rm DI}=\min_{1\le i\le k}{\Large \{} {\Large \}}$
显然，DBI的值越小越好，而DI则相反，值越大越好。

文章目录

1、聚类任务

2、性能度量

2.1 外部指标

2.2 内部指标

3、距离计算

猜你喜欢