2.10 PCA

本节主要记录部分推导过程中的问题，PCA的推导全过程之后再补充

1. 如何从2.71过渡到2.72

在这里插入图片描述

个人认为，从2.72往2.71推导更容易一些，然后我们再逆向考虑就行了

先介绍一下Frobenius范数，定义公式如下，即矩阵每个元素的平方和开根
$\|\mathbf{A}\|_{F} \equiv \sqrt{\sum_{i=1}^{m} \sum_{j=1}^{n}\left|a_{i j}\right|^{2}}\tag{1}$
假设 $\left[\begin{array}{c} a_1^T \\ a_2^T \\ \cdot \\ \cdot \\ \cdot \\ a_m^T \end{array}\right]$ 。那么有
$\|\mathbf{A}\|_{F}^2 =\sum_{i=1}^{n}{||a_i||_2^2}\tag{2}$
我想这个式子比较好理解，请记住它，一会儿会用到。

根据 $\boldsymbol{X}_{i,:}=\boldsymbol{x}^{(i)^{T}}$ ，我们可以得出 $X$ 是这样的，每个 $x^{(i)}$ 都是n维列向量
$X=\left[\begin{array}{c} x^{(1)^{T}} \\ x^{(2)^{T}} \\ \cdot \\ \cdot \\ \cdot \\ x^{(m)^{T}} \end{array}\right]\tag{3}$
我们试着表示一下 $X- Xdd^T$ ，如下
$X-Xdd^T = \left[\begin{array}{c} x^{(1)^{T}} \\ x^{(2)^{T}} \\ \vdots \\ x^{(m)^{T}} \end{array}\right]-\left[\begin{array}{c} x^{(1)^{T}} \\ x^{(2)^{T}} \\ \vdots \\ x^{\left(m)^{T}\right.} \end{array}\right] d d^{T}\tag{4}$

$=\left[\begin{array}{c} x^{(1)^{T}} -x^{(1)^{T}}dd^T\\ x^{(2)^{T}} -x^{(2)^{T}}dd^T\\ \vdots \\ x^{(m)^{T}} -x^{(m)^{T}}dd^T \end{array}\right]\tag{5}$

观察(4)，每一行都是一个列向量的转置，这个列向量就是 $x^{(i)}-x^{(i)^T}dd$ ，即(2)式中的 $a_i$

注意，由于 $x^{(i)^T}d$ 是一个标量，所以转置的时候不用对它做变换，这一点很关键

那么根据(2)式，我们可以得到
$\|\mathbf{X-Xdd^T}\|_{F}^2 =\sum_{i=1}^{n}{||x^{(i)}-x^{(i)^T}dd||_2^2}\tag{6}$
看到这儿，对比2.71式，我们已经实现了这个转换过程，大功告成。

现在逆向考虑也变得简单了，就是根据(2)式从右边向左边推即可

2. 如何根据2.84理解最优的d是 $X^TX$ 的最大特征值对应的特征向量

在这里插入图片描述

2.84式中 $d^TX^TXd$ 一定是标量，所以迹运算可以忽略

我们先假设d是 $X^TX$ 的特征向量，那么一定有 $X^TXd = \lambda d$ ，带入2.84得到
$\underset{d}{\arg \max } \operatorname{}\left(\boldsymbol{d}^{\top}\boldsymbol{\lambda} \boldsymbol{d}\right) \\ =\underset{d}{\arg \max } \operatorname{}\left(\boldsymbol{\lambda}\right) \\ = \boldsymbol{\lambda_{max}} \tag{7}$

也就是说，只要能证明最大值在d为特征向量时取得或者证明最大特征值就是这个表达式的最大值，那么最优的d一定是最大特征值对应的特征向量。我们解决了问题的一半。

证明最大值在d为特征向量时取得是不太好证的，但是证明最大特征值就是这个表达式的最大值，我倒是有些想法。

我们把 $X^TX$ 特征分解后，得到 $P^T\Lambda P$ ，其中P是一个正交阵，即 $P^TP = 1$ 代入2.84

$d^TP^T\Lambda Pd$ ，直接令V = Pd，得到 $v^T\Lambda v$ ，展开成二次项即为
$v_1^2\lambda_1+v_2^2\lambda_2+...+v_n^2\lambda_n\tag{8}$

又因为 $\lambda_1<\lambda_{max},\lambda_2<\lambda_{max},...,\lambda_n<\lambda_{max}$ ，

所以有
$v_1^2\lambda_1+v_2^2\lambda_2+...+v_n^2\lambda_n<=(v_1^2+v_2^2+...+v_n^2)*\lambda_{max} \\ \\ = V^TV*\lambda_{max} \\ \\ = (Pd)^T(Pd)*\lambda_{max} \\ \\ = d^TP^TPd*\lambda_{max} = \lambda_{max} \tag{9}$

得证！！

3. 归纳法证明

在这里插入图片描述

待补充…

深度学习花书-2.10 PCA数学推导

2.10 PCA

1. 如何从2.71过渡到2.72

2. 如何根据2.84理解最优的d是 $X^TX$ 的最大特征值对应的特征向量

3. 归纳法证明

猜你喜欢

深度学习花书-2.10 PCA数学推导

2.10 PCA

1. 如何从2.71过渡到2.72

2. 如何根据2.84理解最优的d是 X T X X^TX XTX的最大特征值对应的特征向量

3. 归纳法证明

猜你喜欢

2. 如何根据2.84理解最优的d是 $X^TX$ 的最大特征值对应的特征向量