KDD 2023 | 密度连接距离统一DBSCAN、k-Center 和谱聚类

DBSCAN聚类只存在过程性的算法描述，缺乏优化标准，且参数往往难以调整。此外，以往研究认为DBSCAN、k-center 和谱聚类三种算法在根本上是不同的。本次为大家带来国际数据挖掘会议KDD 2023上的论文《Connecting the Dots — Density-Connectivity Distance unifies DBSCAN, k-Center and Spectral Clustering》，它提出了一种新的超度量，在该度量空间下能证明三种算法的等效性，进而也为DBSCAN的参数选择提供了帮助。

一. 背景

最常用的一些聚类算法通常会逼近或寻找函数的最优解，例如，k-center算法会最小化任意点到最近的k个中心的最大距离，谱聚类则对从数据中获得的图的切割标准进行优化。然而，对于DBSCAN，只存在对基于密度的簇的过程性描述，而缺乏正式的优化标准。论文提出了基于密度的聚类的目标函数，通过引入密度连接距离（dc-dist）这种新型距离度量来捕捉密度连接。Dc-dist捕捉了密度连接的本质，有助于揭示DBSCAN底层的基本特性。此外，论文还证明了dc-dist下的几种聚类算法的等效性，如图1所示，即dc-dist下的k-center、谱聚类和DBSCAN*算法等效于在欧氏距离下的DBSCAN*。

图1 几种聚类算法的等效性

论文也进行了大量实验证明dc-dist能比其他常用的距离度量更好地捕捉密度连接的结构，同时，使用dc-dist可以有效地选择DBSCAN的参数，从而解决了基于密度的聚类参数难以调整的问题。

二. 相关定义

2.1 最小极大路径

连接性可以通过最小极大路径来度量。两个节点v_p、v_q之间的最小极大路径满足，它是v_p和v_q之间的路径，且使得边的最大权值最小化。最小极大距离m^δ是最小极大路径上的最长边的权值，公式表达如下，其中δ指距离度量：

最小极大路径缺乏密度约束，容易受到单链接效应的影响。具体来说，当一条包含噪声点的链条连接两个相距较远的点时，可能具有较小的最小极大距离。为此，论文将密度考虑到最小极大距离中，将DBSCAN算法中的核心点的概念转化为图的设置，具体如下：

密集路径：一条只包含核心节点的路径。
核心节点：至少有μ 条边且权重都小于ε的节点。
核心距离：连接到节点的由小到大第μ条边的长度。

有了上述定义后，就可以在用最小极大路径测量连接性的同时，确保这些路径上的密度。

2.2 密度连接距离

两个节点p和q之间的密度连接距离（Density-Connectivity Distance，缩写为 dc-dist）定义如下：在数据集X下，由欧氏距离引导出的图上所测量的最小极大距离，这个图是只包含密集路径的，即图的所有节点都是核心节点。为了更好地计算dc-dist，论文提出了相互可达距离，指两个点可达的距离，即在两点都是核心点的情况下它们的核心距离和欧氏距离的最大值，公式表达为：。基于此，dc-dist可形式化为：。然后，可以直接使用计算图中最小极大距离的已知算法，如Kruskal或Prim算法，来高效地计算dc-dist。

2.3 计算dc-dist

对由引导的全连接图采用Kruskal算法生成最小生成树（MST）。Kruskal的算法通过维护一组森林，在每一步中连接两个具有最短边的森林，而这个短边的权值对应于dc-dist。对详细过程感兴趣的读者可参考论文附录B中的算法2。

**三. DBSCAN*算法**

3.1 相关定理

DBSCAN算法将其ε范围内有minPts个邻居的核心点分配到单个簇中。值得注意的是，两个点可以在不是核心点的情况下也可以被密度连接，此时它们被称为边界点。而DBSCAN* 算法只区分核心点和噪声点，所有边界点都被视为噪声点。图2是它们的聚类效果对比。

图2 DBSCAN的聚类效果对比

DBSCAN* 算法下，以下定理成立：假设C={ C₁, ...,C_k}是由DBSCAN* 以参数ε产生的聚簇，则满足 ∀C_i∈C, d_dc(c_a,c_b) ≤ ε∀c_a,c_b∈C_i。并且，∀C_i,C_j∈C且C_i≠C_j, 有d_dc(c_i,c_j) >ε∀c_i∈C_i,c_j∈C_j。这其实很好理解，DBSCAN*连接那些彼此之间相互可达距离小于ε的点，因此这条路径上的每一步的相互可达距离都必须小于等于ε。

对定理进行扩展，定义一个矩阵，矩阵中当两点的dc-dist小于ε时为1，否则为0。矩阵是自反的和对称的，并且由于超度量属性，它是传递的，即d(x, y)<ε∧d(y, z)<ε⇒d(x, z)<ε。文章也论证了在欧氏距离和 dc-dist 下，DBSCAN* 聚类是等价的，具体详见原文附录C。

3.2 相关定理DBSCAN*的优化准则

论文定义在ε参数下，基于密度的聚类的目标函数（εDBC）如下：

这可以解释为找到最小的簇集，使任何簇内的最大dc-dist不超过ε。损失函数为LεDBC(C)=|C|，即找到覆盖数据点的最小数量的ε-球。其实，这个目标函数与DBSCAN的原则是相一致的，dc-dist对应于连接性标准，而最小化簇的数量就等价于找到尽可能大的高密度区域。

文章后面也定义了DBSCAN-distance，如同dc-dist衡量DBSCAN*一样来衡量DBSCAN，以处理边界点。详细可以参考论文3.2节。

**四. k-center和DBSCAN*的关系**

4.1 DBSCAN*和k-center解的等效性

文章还讨论了dc-dist下DBSCAN*和k-center 解的等效性。K-center算法是寻找k个中心，以最小化数据集中每个点到其最近中心的最大距离。目标函数可定义为

可以看到k-center的目标和εDBC的目标存在明显的关联，即εDBC旨在找到覆盖数据点的最小数量的ε-球，而k-center则是在搜索最小的ε，使得k个ε-球覆盖这些点。有如下定理：

在使用 dc-dist 时，如果C是k-center 问题的唯一最优解，且不存在l<k，使cost(l,X) = cost(l,X)。设ε^k_i是第i个簇的成本（簇中所有点到簇中心的最大距离），并定义ε_opt= max_iε^k_i，即所有簇的最大成本。那么可得到如下推理：

C是在ε_opt参数下、X数据集上，使用dc-dist的DBC的最优解。
|C|=k，即C 中包含k 个中心点。
DBSCAN* 找到了这个最优解。

换句话说，如果k-center 问题有一个成本为ε 的最优解，则εDBC问题也有一个包含k 个簇的最优解。

4.2 dc-dist下的最优k-center

算法1提供了在dc-dist下的最优k-center的解决方案。该算法基于一棵二叉树，树中的每个节点对应于互相可达MST（最小生成树）中的一条边。每个节点的值等于其在 MST 中对应边的长度，而树中两个节点之间的距离是它们的最低共同祖先的值。由于聚类的成本是其最低共同祖先（lca）的值，通过按最小的lca 合并子节点，可以保证在每次合并后仍保持最优性。论文在附录中提供了完整的证明。

4.3 k-中心与q-覆盖

图3是k-center聚类效果对比。我们可以看到，第2列的k-center产生了三个只包含一个点的簇。因此，尽管k-center为我们提供了有效的DBSCAN*聚类，但它可能不是最实用的。这个问题其实源于每个离群值周围的低密度，可以通过增加最少点数的限制来解决。修改后的目标函数为

即加上了d_q(P,c)以确保簇具有一定的紧凑性。而算法的修改是比较容易的，只需要修剪树。具体来说，我们只需要树中包括至少有μ 个子节点的节点。修改后的算法在附录的算法4中。

图3 k-center聚类效果对比

五. 超参数谱聚类

论文还讨论了在dc-dist上的谱聚类。谱图分析将任意空间中的聚类问题转化为图分区问题。对于给定的相似度矩阵 S，其中S_i,j≥0 表示 x_i 和x_j之间的相似度分数，谱聚类的步骤包括：

（1）归一化：通常使用拉普拉斯矩阵进行归一化。

（2）特征分解计算：这一步涉及计算特征值和特征向量。

（3）分区：然后基于特征向量执行聚类。

根据相似性矩阵和分区的不同，最终的聚类由最小比率切割或与之密切相关的最小归一化切割给出。论文中考虑计算最小切割，其中S是基于dc-dist的，且S的行向量是使用dc-dist值计算的。更多的讨论详见论文第5节。

六. 实验

6.1 数据集

（1）包含基于密度的聚类（d1、d2、d3）或高斯分布聚类（b3）的合成数据集，d1和d2分别由10k个密度相同和密度不同的簇中的数据点组成。b3和d3由不平衡簇中的9k个数据点组成，同时还包括1k个均匀分布的噪声点。

（2）最新的基准数据集：driver faces, coil5, coil10, pendigits, coil20, olivetti, coil。

6.2 dc-dist捕获密度-连接性

论文首先证明了在dc-dist下簇内和簇间距离之间的差距比常用的距离测量更明显，从而证明了dc-dist确实捕获了密度连通性。图4显示了欧几里德、曼哈顿、余弦距离和μ∈{3,5,10}时的dc-dist在基于合成密度的簇上的对比。x 轴对应于从 0 到 100% 最大距离桶，y 轴显示落入每个桶百分比。簇内距离和簇间距离分别用蓝色和黄色表示。我们可以看到dc-dist簇内距离和簇间距离之间形成了一个大的谷。与其它距离度量相比，dc-dist在簇内和簇间距离之间获得了更大的差异。

图4 基于密度的聚类数据上的距离值的分布

6.3 对单链接效应的鲁棒性

最小极大距离容易受到单链接（SL）效应的影响，而dc-dist融合了密度使得其随着μ的增加对噪声更具鲁棒性。图5中通过绘制两个中心分别位于 (-3, 0) 和 (3, 0) 处的多元高斯分布之间最小簇间距离和平均簇内距离之差来说明 dc-dist的鲁棒性。图中小于0的值意味着由于 SL 效应，最小簇间距离的长度小于平均簇内距离，簇无法分离。随着μ的增加，大大减少了这种情况。

图5 dc-dist对单链接效应的鲁棒性

6.4 距离度量与聚类算法

图6展示了类距离度量与聚类算法之间的关系。论文计算数据集中的成对距离，并使用多维缩放（MDS）将它们嵌入到欧几里得空间中。然后，使用兰德指数（ARI）来评估一些最基本的聚类算法（DBSCAN 、 k-Means、谱聚类）以及最新的基于密度的聚类算法（DCF）。

可以看到，当使用 dc-dist 时，在合成数据集上，低维嵌入的聚类与地面真实聚类保持更高的 ARI。这对于不同结构的数据（高斯或基于密度的聚类，有或无噪声，平衡或不平衡密度）和不同的聚类方法都成立。此外，dc-dist 对于减少嵌入维度是稳健的。而基准数据集上，这两种效果表现得不那么明显。

图6 不同数据集、不同聚类算法、不同距离度量、不同维度下ARI对比

6.5 选择k以获得良好的ε值

图7展示了簇数量如何影响ε值。图表显示，增加k导致ε值持续下降。文章建议我们先对数据集中类别数量有一个大致的了解，这样无需进行超参数调整即可获得DBSCAN聚类。

图7 不同数据集不同μ下k对ε的影响

论文实验代码已开源：https://github.com/Andrew-Draganov/dc_dist.

七. 总结

论文提出了dc-dist，一种将密度和最小极大距离结合起来的超度量。它使我们能够通过损失函数而不是过程性描述来形式化基于密度的聚类。通过对dc-dist进行扩展，加入DBSCAN-distance，还可以准确地表示DBSCAN的定义。论文还展示了在由dc-dist定义的空间中，DBSCAN*、k-center和谱聚类是等效的，尽管它们在其他现有文献中被认为是不同的。论文进行了广泛的实验，证明了与其他距离度量相比，dc-dist能够有效捕捉数据的结构，对于包含基于密度的簇的数据，改善了其聚类性能。通过建立这三种基本聚类方法之间的联系，论文为未来的研究奠定了稳固的基础：如它允许选择DBSCAN的簇数k而不是敏感的参数ε，也有助于在已有算法之间更顺畅地转移扩展和加速方法。