全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴
相关链接:统计学习方法读书笔记(十四)-聚类方法
一、聚类任务
聚类既能作为一个单独过程,用于找寻数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。
二、性能度量
对聚类结果,我们需通过某种性能度量来评估其好坏;另一方面,若明确了最终将要使用的性能度量,则可直接将其作为聚类过程的优化目标,从而更好地得副符合要求的聚类结果。
- 外部指标:将 聚类结果与某个 “ 参考模型 ”(reference model)进行比较。
- 内部指标:直接考察聚类结果而不利用任何参考模型。
三、距离计算
距离度量函数 d i s t ( ⋅ , ⋅ ) dist(\cdot,\cdot) dist(⋅,⋅)的基本性质:
- 非负性
- 同一性
- 对称性
- 直递性
聚类的核心概念是相似度或距离。
- 闵可夫斯基距离 d i j = ( ∑ k = 1 m ∣ x k i − x k j ∣ p ) 1 p 这 里 p ≥ 1 d_{ij}=\Big(\sum_{k=1}^m|x_{ki-x_{kj}}|^p\Big)^{\frac1p}\\\;\\这里p\ge1 dij=(k=1∑m∣xki−xkj∣p)p1这里p≥1
当 p = 2 p=2 p=2时称为欧氏距离
当 p = 1 p=1 p=1时称为曼哈顿距离
当 p = ∞ p=\infty p=∞时称为切比雪夫距离(取坐标数值差的绝对值的最大值)
-
马哈拉诺比斯距离 d i j = [ ( x i − x j ) T S − 1 ( x i − x j ) ] 1 2 d_{ij}=[(x_i-x_j)^TS^{-1}(x_i-x_j)]^{\frac12} dij=[(xi−xj)TS−1(xi−xj)]21
其中 样 本 集 合 为 : X = [ x i j ] m ∗ n , S 为 协 方 差 矩 阵 x i = ( x 1 i , x 2 i , ⋯ , x m i ) T , x j = ( x 1 j , x 2 j , ⋯ , x m j ) T 样本集合为:X=[x_{ij}]_{m*n},S为协方差矩阵\\x_i=(x_{1i},x_{2i},\cdots,x_{mi})^T,x_j=(x_{1j},x_{2j},\cdots,x_{mj})^T 样本集合为:X=[xij]m∗n,S为协方差矩阵xi=(x1i,x2i,⋯,xmi)T,xj=(x1j,x2j,⋯,xmj)T
当样本数据哥哥分量互相独立且各个分量的方差为1时,马氏距离就是欧式距离,所以马氏距离时欧氏距离的推广。 -
样本系数 r i j = ∑ k = 1 m ( x k i − x ˉ i ) ( x k j − x ˉ j ) [ ∑ k = 1 m ( x k i − x ˉ i ) 2 ∑ k = 1 m ( x k j − x ˉ j ) 2 ] 1 2 r_{ij}=\frac{\sum_{k=1}^m(x_{ki}-\bar x_i)(x_{kj}-\bar x_j)}{\Big[\sum_{k=1}^m(x_{ki}-\bar x_i)^2\sum_{k=1}^m(x_{kj}-\bar x_j)^2\Big]^{\frac12}} rij=[∑k=1m(xki−xˉi)2∑k=1m(xkj−xˉj)2]21∑k=1m(xki−xˉi)(xkj−xˉj)
-
夹角余弦 s i j = ∑ k = 1 m x k i x k j [ ∑ k = 1 m x k i 2 ∑ k = 1 m x k j 2 ] 1 2 s_{ij}=\frac{\sum_{k=1}^mx_{ki}x_{kj}}{\Big[\sum_{k=1}^mx_{ki}^2\sum_{k=1}^mx_{kj}^2\Big]^{\frac12}} sij=[∑k=1mxki2∑k=1mxkj2]21∑k=1mxkixkj
-
簇或类
-
类与类之间的距离
- 最短距离或单连接
- 最长距离或完全连接
- 中心距离
- 平均距离
四、原型聚类
- k均值算法
- 学习向量量化
- 高斯混合聚类(采用概率模型来表达聚类原型)
五、密度聚类
- DBSCAN
六、层次聚类
层次聚类(hierarchical clustering)试图在不同层次对数据集进行划分,从而形成树形的聚类结构.数据集的划分可采用“自底向上”的聚合策略,也可采用“自顶向下”的分拆策略。
- AGNES(自底向上聚合策略)
下一章传送门:西瓜书读书笔记(十)-降维与度量学习