线性回归之最小二乘法(Least Squares)推导

假设 $n$ 维空间变量点为 $\vec{x}= (x_1, x_2, \cdots, x_n)^T$ , 并假设有 $m$ 个这样的样本点记为 $\vec{x}^{(1)}, \vec{x}^{(2)}, \cdots ,\vec{x}^{(m)}$ ，我们希望找到一个这样的超平面，来使得尽可能的拟合这些样本点，形式化表示等价于我们希望找到这样的系数 $\vec{w}$ 和 $b$ 使得 ${\vec{w}}^T\vec{x}+b \approx y$ ，为了简化上述表达式，我们将 $\vec{w}$ 和 $b$ 放到一起简记为 $({\vec{w}}^T,b) = {\vec{w}}^T$ ，并令 $\vec{x}^{(i)}_{n} = 1$ ，于是上述表达式等价于找到 ${\vec{w}}^T$ 使得 ${\vec{w}}^T\vec{x}\approx y$

我们记样本点集为矩阵 $X$ ，则有

X = (\begin{matrix} {\vec{x}}^{(1)}^{T} \\ {\vec{x}}^{(2)}^{T} \\ ⋮ \\ {\vec{x}}^{(m)}^{T} \end{matrix}) = (\begin{matrix} x_{1}^{(1)} & x_{2}^{(1)} & \dots & x_{n}^{(1)} \\ x_{1}^{(2)} & x_{2}^{(2)} & \dots & x_{n}^{(2)} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ x_{1}^{(m)} & x_{2}^{(m)} & \dots & x_{n}^{(m)} \end{matrix})

$X = \begin{pmatrix} {\vec{x}^{(1)}}^{T} \\ {\vec{x}^{(2)}}^{T} \\ \vdots \\ {\vec{x}^{(m)}}^{T} \end{pmatrix} = \begin{pmatrix} x_1^{(1)} & x_2^{(1)} & \cdots & x_n^{(1)}\\ x_1^{(2)} & x_2^{(2)} & \cdots & x_n^{(2)}\\ \vdots & \vdots & \ddots & \vdots \\ x_1^{(m)} & x_2^{(m)} & \cdots & x_n^{(m)}\\ \end{pmatrix}$

于是上述表述等价于找到 $\vec{w}$ 使得 $X\vec{w} \approx \vec{y}$ .

考虑这样的一个特殊情形：假设所有的样本点正好在一个超平面，且样本点所张成的空间( $Span\ Space$ )为该 $n$ 维空间，意味着 $m \ge n$ 且 $rank(X) = n$
此时方程 $X\vec{w} = \vec{y}$ 恰好有唯一解(即为该超平面) ,推导如下:

X \vec{w} = \vec{y} \Leftrightarrow X^{T} X \vec{w} = X^{T} \vec{y} \Leftrightarrow \vec{w} = (X^{T} X)^{- 1} X^{T} \vec{y}

$X\vec{w} = \vec{y} \Leftrightarrow X^TX\vec{w}=X^T\vec{y} \Leftrightarrow \vec{w} = (X^TX)^{-1}X^T\vec{y}$

(注：因为 $X$ 为列满秩，所以 $rank(X^TX)= rank(X) = n$ ，即 $X^TX$ 为可逆方阵)

而对于一般情形，所有的样本点一般不会在同一个超平面中，所以方程 $X\vec{w} = \vec{y}$ 此时是无解的，这个方程组也称之为超定方程组( $Overdetermined\ System$ )，即方程数量超过未知数个数，此时我们希望找到一个超平面使得 $X\vec{w} \approx \vec{y}$ 且误差 $\Vert X\vec{w} - \vec{y}\Vert$ 尽可能的小（这里符号 $\Vert\ \Vert$ 为 $L_2$ 范数，利用度量欧几里得距离来衡量误差大小是比较符合常识的）。形式化表达等价于

\vec{\hat{w}} = \arg min_{\vec{w}} ‖ X \vec{w} - \vec{y} ‖

$\vec{\hat{{w}}} = \arg\min_{\vec{w}}\Vert X\vec{w} - \vec{y}\Vert$

为了便于计算，我们不妨令

\vec{\hat{w}} = \arg min_{\vec{w}} ‖ X \vec{w} - \vec{y} ‖ = {\arg min_{\vec{w}} ‖ X \vec{w} - \vec{y} ‖}^{2}

$\vec{\hat{{w}}} = \arg\min_{\vec{w}}\Vert X\vec{w} - \vec{y}\Vert = {\arg\min_{\vec{w}}\Vert X\vec{w} - \vec{y}\Vert}^2$

且令

L (w_{1}, w_{2}, \dots, w_{n}) = {‖ X \vec{w} - \vec{y} ‖}^{2}

$L(w_1,w_2,\cdots,w_n)={\Vert X\vec{w} - \vec{y}\Vert}^2$

仍不妨假设此时 $X$ 是列满秩的
上述问题转化为了求极值问题，我们很自然的想到了利用导数来寻找极值。
于是对 $w_i$ 求偏导且令其为零

\frac{\partial L}{\partial w_{i}} = 2 (x_{i}^{(1)}, x_{i}^{(2)}, \dots, x_{i}^{(m)}) (X \vec{w} - \vec{y}) = 0

$\frac{\partial{L}}{\partial{w_i}}=2(x_i^{(1)},x_i^{(2)},\cdots,x_i^{(m)})(X\vec{w}-\vec{y})=0$

于是

(\frac{\partial L}{\partial w_{1}}, \frac{\partial L}{\partial w_{2}}, \dots, \frac{\partial L}{\partial w_{n}})^{T} = {\vec{0}}^{T} \Leftrightarrow 2 X^{T} (X \vec{w} - \vec{y}) = \vec{0} \Leftrightarrow X^{T} X \vec{w} - X^{T} \vec{y} = \vec{0}

$(\frac{\partial{L}}{\partial{w_1}}, \frac{\partial{L}}{\partial{w_2}}, \cdots,\frac{\partial{L}}{\partial{w_n}})^T=\vec{0}^T \Leftrightarrow 2X^T(X\vec{w}-\vec{y})=\vec{0} \Leftrightarrow X^TX\vec{w}-X^T\vec{y}=\vec{0}$

即推出

\vec{w} = (X^{T} X)^{- 1} X^{T} \vec{y}

$\vec{w}=(X^TX)^{-1}X^T \vec{y}$

上述就是众所周知的线性最小二乘法的基本思想
然而，这里会有两个问题
(1) 为什么在这个情况下我们找到的是极小值？
(2) 为什么这个极小值就是我们需要的最小值？

线性回归之最小二乘法(Least Squares)推导

猜你喜欢