转载出处:https://blog.csdn.net/Oxalis_Triangularis/article/details/47420521
LDA中的三个散度矩阵
在学习LDA(Linear Discriminate Analysis)的时候接触到了散度矩阵的概念,并且很多文章提到到混合散度矩阵等于类间散度矩阵与类内散度矩阵之和。我自己证明了一下。
总体散度矩阵(total scatter matrix)
St=∑i=1C∑j=1nip(i,j)(xij−μ)(xij−μ)TSt=∑i=1C∑j=1nip(i,j)(xji−μ)(xji−μ)T
其中 xijxji 表示第 ii 类的第 jj 个样本, p(i,j)p(i,j) 表示 xijxji 出现的概率, μμ 为总体均值, CC 为类数, nini 为第 ii 类的样本数。
类内散度矩阵(within-class scatter matrix)
Sw=∑i=1Cp(i)SiSw=∑i=1Cp(i)Si
其中 Si=∑Ci=1p(i)(μi−μ)(μi−μ)TSi=∑i=1Cp(i)(μi−μ)(μi−μ)T ,表示第 ii 类的类间散度矩阵, p(i)p(i) 为第 ii 类出现的概率,并且 p(i)p(j|i)=p(i,j)p(i)p(j|i)=p(i,j) .
类间散度矩阵(between-class scatter matrix)
Sb=∑i=1Cp(i)(μi−μ)(μi−μ)TSb=∑i=1Cp(i)(μi−μ)(μi−μ)T
其中 μiμi 是第 ii 类的均值。我们可以对 StSt 作分解,
St=∑i=1C∑j=1nip(i,j)(xij−μi+μi−μ)(xij−μi+μi−μ)T=∑i=1C∑j=1nip(i,j)(xij−μi)(xij−μi)T+∑i=1C∑j=1nip(i,j)(μi−μ)(μi−μ)T+∑i=1C∑j=1nip(i,j)(xij−μi)(μi−μ)T+∑i=1C∑j=1nip(i,j)(μi−μ)(xij−μi)TSt=∑i=1C∑j=1nip(i,j)(xji−μi+μi−μ)(xji−μi+μi−μ)T=∑i=1C∑j=1nip(i,j)(xji−μi)(xji−μi)T+∑i=1C∑j=1nip(i,j)(μi−μ)(μi−μ)T+∑i=1C∑j=1nip(i,j)(xji−μi)(μi−μ)T+∑i=1C∑j=1nip(i,j)(μi−μ)(xji−μi)T
将上式中的四部分分别记为A,B,C,DA,B,C,D, 那么
ABC同理D=∑i=1Cp(i)∑j=1nip(j|i)(xij−μi)(xij−μi)T=∑i=1Cp(i)Si=Sw=∑i=1Cp(i)(μi−μ)(μi−μ)T∑j=1nip(j|i)=∑i=1Cp(i)(μi−μ)(μi−μ)T=Sb=∑i=1Cp(i)(∑j=1nip(j|i)(xij−μi))(μi−μ)=∑i=1Cp(i)(∑j=1nip(j|i)xij−μi)(μi−μ)=0=0A=∑i=1Cp(i)∑j=1nip(j|i)(xji−μi)(xji−μi)T=∑i=1Cp(i)Si=SwB=∑i=1Cp(i)(μi−μ)(μi−μ)T∑j=1nip(j|i)=∑i=1Cp(i)(μi−μ)(μi−μ)T=SbC=∑i=1Cp(i)(∑j=1nip(j|i)(xji−μi))(μi−μ)=∑i=1Cp(i)(∑j=1nip(j|i)xji−μi)(μi−μ)=0同理D=0
所以 St=Sb+Sb