之前说到的PCA,它主要的目的是寻找数据variance变化最大的轴。通过删去数据中variance变化不大的轴来压缩数据的维数。PCA没有办法很好的解决数据分类的问题(classification)。
LDA or Fisher Discriminate Analysis 是一种用于分类数据的分析方法。他的目的是寻找到一条直线,当把所有数据点投影到直线上之后,尽可能的分开不同类别的训练数据。
很容易想到,每个类别训练数据投影到直线后的平均数的差可以做为衡量这条直线好坏的一个标准。
再考虑到不同类数据的variance之后,最终的cost function被定义为:
Scatter就是variance乘以n。n是这个类数据的个数。
我们可以定义Within the class matrix:
Sw = S1 + S2;(这里的s1和s2是投影前的scatter)
定义between class matrix为:
SB = (u1-u2)(u1-u2)t
定义V为我们要找的直线的unit vector
重新整理cost function后,得到:(这里就不细讲了)
我们的目标就是最大化J(v)。
同样的,我们取J(v)的微分:
又是一个eigenvector的问题。
已知:
当Sw是full rank的时候,
下面是matlab测试结果:
上下两个绿色的点就是两团数据在直线上投影的点的平均数,LDA就是找出一条线,尽量让投影的平均数的差(除以scatter)最大化。中间的绿点是上下两个绿点的平均数。过中间绿点垂直于LDA line的线就可以做为separating line,用来对test sample进行分类。