机器学习入门笔记(九)----无监督学习

一、特征

对于无标签的数据,算法自动的解析出数据中的结构。

二、应用

市场细分、用户关系网络分析、星系数据分析等等

三、K均值算法

步骤:

(1)随机选取聚类中心
(2)计算与聚类中心的距离,进行分类
(3)计算每个分类的均值,作为新的聚类中心
(4)重复2 3步骤,直到分类结果稳定

参数:

(1)K分类个数
(2)数据

优化目标:

优化目标
c(i)为第i个样本所属的聚类索引:1…K
uk为第k个聚类中心
uc(i)为第i个样本所属的聚类中心
目标为使所有样本到其所属聚类中心的距离平方的总和最小。
计算步骤2做的是在聚类中心确定的前提下,进行分类,使代价函数最小。
计算步骤3做的是在样本不动的前提下,移动聚类中心,使代价函数最小。

初始化中心

随机选取k个样本,作为k个聚类中心的初始值。
但是随机的样本如果不够好,很容易得到局部最优解。通常做法是重复这个随机初始值的方法很多次,选择其中令代价函数最小的一次。
聚类数K的选择

肘部法则

肘部法则
如图,当k取3时,此处是明显的拐点。增加k并不会明显的使cost减小非常多。此时,3是k的一个比较好的选择。
但不是所有问题都会如下图这样明显,有些模糊的问题,肘部法则也不是总能给出答案。这时就需要根据实际场景来进行抉择了。

四、降维

目的

  • 数据压缩存储
  • 算法提速
  • 数据可视化

主成分分析法PCA

1. 思想

寻找低纬度超平面,使数据点与这个超平面的距离和最小。然后将数据映射到这个超平面上实现降维。
与线性回归的区别如图:

PCA

  • 左边是线性回归,追求每个数据点的y值与原y值之间的距离和最小。
  • 而右边PCA,是数据点与超平面间的距离。
2. 步骤
  • 均值归一、特征缩放
  • 得到Sigma为n*n矩阵。再svd求得U。 取U前k列,转置再乘X,记得到降维后的新数据矩阵Z。
  • PCA

猜你喜欢

转载自blog.csdn.net/wl6965307/article/details/78258761