机器学习入门笔记(九)----无监督学习

一、特征

对于无标签的数据，算法自动的解析出数据中的结构。

二、应用

市场细分、用户关系网络分析、星系数据分析等等

三、K均值算法

步骤：

（1）随机选取聚类中心
（2）计算与聚类中心的距离，进行分类
（3）计算每个分类的均值，作为新的聚类中心
（4）重复2 3步骤，直到分类结果稳定

参数：

（1）K分类个数
（2）数据

优化目标：

优化目标
c(i)为第i个样本所属的聚类索引：1…K
uk为第k个聚类中心
uc(i)为第i个样本所属的聚类中心
目标为使所有样本到其所属聚类中心的距离平方的总和最小。
计算步骤2做的是在聚类中心确定的前提下，进行分类，使代价函数最小。
计算步骤3做的是在样本不动的前提下，移动聚类中心，使代价函数最小。

初始化中心

随机选取k个样本，作为k个聚类中心的初始值。
但是随机的样本如果不够好，很容易得到局部最优解。通常做法是重复这个随机初始值的方法很多次，选择其中令代价函数最小的一次。
聚类数K的选择

肘部法则

如图，当k取3时，此处是明显的拐点。增加k并不会明显的使cost减小非常多。此时，3是k的一个比较好的选择。
但不是所有问题都会如下图这样明显，有些模糊的问题，肘部法则也不是总能给出答案。这时就需要根据实际场景来进行抉择了。

四、降维

目的

数据压缩存储
算法提速
数据可视化

主成分分析法PCA

1. 思想

寻找低纬度超平面，使数据点与这个超平面的距离和最小。然后将数据映射到这个超平面上实现降维。
与线性回归的区别如图：

PCA

左边是线性回归，追求每个数据点的y值与原y值之间的距离和最小。
而右边PCA，是数据点与超平面间的距离。

2. 步骤

均值归一、特征缩放
得到Sigma为n*n矩阵。再svd求得U。取U前k列，转置再乘X，记得到降维后的新数据矩阵Z。