一、聚类任务

聚类既能作为一个单独过程，用于找寻数据内在的分布结构，也可作为分类等其他学习任务的前驱过程。

二、性能度量

对聚类结果，我们需通过某种性能度量来评估其好坏；另一方面，若明确了最终将要使用的性能度量，则可直接将其作为聚类过程的优化目标，从而更好地得副符合要求的聚类结果。

距离度量函数 $dist(\cdot,\cdot)$ 的基本性质：

聚类的核心概念是相似度或距离。

当 $p = 2$ 时称为欧氏距离
当 $p = 1$ 时称为曼哈顿距离
当 $p=\infty$ 时称为切比雪夫距离（取坐标数值差的绝对值的最大值）

马哈拉诺比斯距离 $d_{ij}=[(x_i-x_j)^TS^{-1}(x_i-x_j)]^{\frac12}$
其中 $样本集合为：X=[x_{ij}]_{m*n},S为协方差矩阵\\x_i=(x_{1i},x_{2i},\cdots,x_{mi})^T,x_j=(x_{1j},x_{2j},\cdots,x_{mj})^T$
当样本数据哥哥分量互相独立且各个分量的方差为1时，马氏距离就是欧式距离，所以马氏距离时欧氏距离的推广。
样本系数 $r_{ij}=\frac{\sum_{k=1}^m(x_{ki}-\bar x_i)(x_{kj}-\bar x_j)}{\Big[\sum_{k=1}^m(x_{ki}-\bar x_i)^2\sum_{k=1}^m(x_{kj}-\bar x_j)^2\Big]^{\frac12}}$
夹角余弦 $s_{ij}=\frac{\sum_{k=1}^mx_{ki}x_{kj}}{\Big[\sum_{k=1}^mx_{ki}^2\sum_{k=1}^mx_{kj}^2\Big]^{\frac12}}$
簇或类
类与类之间的距离

层次聚类（hierarchical clustering）试图在不同层次对数据集进行划分，从而形成树形的聚类结构．数据集的划分可采用“自底向上”的聚合策略，也可采用“自顶向下”的分拆策略。