【温故而知新】线性回归(Linear Regression)

本文主要以下几个角度来讲解线性回归：

最小二乘法LSE（矩阵表达，几何意义）
概率角度：最小二乘法LSE——noise为Gaussian MLE
正则化：
- L1——Lasso
- L2——Ridge
正则化的几何解释

最小二乘法

定义为：通过给定样本数据集 $D=\left \{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\right \}$ , $x_i \in \mathbb{R}^{p}$ , $y_i \in \mathbb{R}, i =1,...,N$ ，试图学习到这样的一个模型，使得对于任意的输入特征向量 $x=(x_1, x_2, ..., x_N)^T$ ，模型的预测输出 $f(x)$ 能够表示为输入特征向量 $\large x$ 的线性函数，即满足：

$f(x_i)=w_1x_{i1}+w_2x_{i2}+...+w_px_{ip}+b$

也可以写成矩阵的形式：

$f(X)=W^TX+b$

其中， $W=(w_1, w_2, ... , w_p)^T$ 和 $b$ 称为模型的参数。

为了求解线性模型的参数 $W$ 和 $b$ ，首先我们定义损失函数，在回归任务中，常用的损失函数是均方误差：

$L\left ( W, b \right ) = \frac{1}{2} \sum_{i=1}^{N}\left (f(x_i)-y_i \right )^2$

优化损失函数就是我们的目标，基于均方误差损失函数来求解模型参数的方差，也就是我们熟悉的最小二乘法，最小二乘法的思想其实就是寻找一个超平面，使得训练数据集 $D$ 中的所有样本点到这个超平面的欧式距离最小。

OK，接下来就是优化问题了，如何取优化该损失函数，从而获得最优模型参数 $W^*$ 和 $b^*$ ,因为该损失函数是凸函数，根据极值存在的必要条件，我们可以运用解析法进行求解。

下面我们将给出详细的推导求解 $W$ 和 $b$ 的过程：

1. 首先将参数 $W$ 和 $b$ 进行合并，用 $\theta$ 来进行表示： $\theta=\left( w_1, w_2, ..., w_p, b \right )^T_{1*(p+1)}$ , 容易知道 $\large \theta$ 是 $p+1$ 维度。

对输入特征向量进行改写，，则全体训练集，可用矩阵进行如下表示：

$X=\begin{pmatrix} x_1^T \\ x_2^T \\ ... \\ x_N^T \\ I\end{pmatrix}=\begin{pmatrix} x_{11} & x_{12} & ... & x_{1p} & 1 \\ x_{21} & x_{22} & ... & x_{2p} &1\\ ... & ... & ... & ... & ...\\ x_{N1} & x_{N2} & ... & x_{Np} & 1 \end{pmatrix}_{N*(p+1)}$

对输入特征向量的输出标签，可以改写为：

$Y=\left( y_1, y_2, ..., y_N\right)^T$

2. 根据1.我们可以知道 $\large x_i$ 是一个 $(p+1)\times 1$ 的列向量，这样模型的预测结果可以写成矩阵形式：

$f \left( x_i \right)=\theta^Tx_i$

3. 根据1和2，损失函数可以转化为矩阵形式：

$L\left( \theta \right ) = \sum_{i=1}^{N}\left \| \theta^Tx_i-y_i \right \|^{2}=\sum_{i=1}^{N}( \theta^Tx_i-y_i )^{2}$

$=\begin{pmatrix} \theta^Tx_1-y_1 & \theta^Tx_2-y_2 & ... & \theta^Tx_N-y_N \end{pmatrix} \begin{pmatrix} \theta^Tx_1-y_1 \\ \theta^Tx_2-y_2 \\ ... \\ \theta^Tx_N-y_N \end{pmatrix}$

$=(\theta^TX^T-Y^T)(X\theta-Y)$

根据极值存在的必要条件，下面进行对参数 $\large \theta$ 的求导：

Method 1:

$\large \bigtriangledown_\theta L(\theta) =\bigtriangledown_\theta \frac{1}{2}(X\theta-Y)^T(X\theta-Y)$

$\large =\frac{1}{2}\bigtriangledown_\theta(\theta^TX^TX\theta - \theta^TX^TY-Y^TX\theta+Y^TY)$ ,这里的 $\large {\color{Red} Y^TX\theta \in \mathbb{R}, \theta^TX^TY \in \mathbb{R}}$

$\large =\frac{1}{2}\bigtriangledown_\theta(\theta^TX^TX\theta - 2\theta^TX^TY+Y^TY)$

$\large =\frac{1}{2}\bigtriangledown_\theta(\theta^TX^TX\theta - 2X^TY)$

Method 2:

$\large \bigtriangledown_\theta L(\theta) =\bigtriangledown_\theta \frac{1}{2}(X\theta-Y)^T(X\theta-Y)$

$\large =\frac{1}{2}\bigtriangledown_\theta(\theta^TX^TX\theta - \theta^TX^TY-Y^TX\theta+Y^TY)$ 对上一步结果进行展开

$\large =\frac{1}{2}\bigtriangledown_\theta tr(\theta^TX^TX\theta - \theta^TX^TY-Y^TX\theta + Y^TY)$ 转换为迹运算

$\large =\frac{1}{2}\bigtriangledown_\theta \left ( tr(\theta^TX^TX\theta) -tr( \theta^TX^TY)-tr(Y^TX\theta )+ tr(Y^TY) \right )$ 对上一步结果进行展开

根据常见矩阵求导公式 $\large tr(A)=tr(A^T)$ ,可知 $\large \because (\theta^TX^TY)^T = Y^TX\theta \therefore tr( \theta^TX^TY) = tr(Y^TX\theta )$

$\large =\frac{1}{2}\bigtriangledown_\theta \left ( tr(\theta^TX^TX\theta) -2tr(Y^TX\theta )\right )$

根据常见矩阵求导公式 $\large \bigtriangledown_X tr(X^TAX)=(A+A^T)X$ ，可知 $\large \bigtriangledown_\theta \left ( tr(\theta^TX^TX\theta) \right ) = \left ((X^TX)^T + X^TX \right)\theta = 2X^TX\theta$

根据常见矩阵求导公式 $\large \bigtriangledown_X tr(\beta^TX)=\beta$ ，可知 $\large \bigtriangledown_\theta \left ( tr(Y^TX\theta )\right ) = (Y^TX)^T=X^TY$

综上可知， $\large \bigtriangledown_\theta L(\theta) = \frac{1}{2} \left (2X^TX\theta -2X^T\theta \right)=X^TX\theta-X^TY$

令 $\large \bigtriangledown_\theta L(\theta) = 0$ ，可得 $\large X^TX\theta-X^TY=0$ ，求解得到 $\large \theta=(X^TX)^{-1}X^TY$

需要注意，要保证对称矩阵 $\large X^TX$ 是可逆的，如果不可逆，则解析法求解失效。

几何意义

1. 第一种几何解释

如下图所示：误差与所有的红色距离有关；

2. 第二种几何解释

把误差被分配到p个维度上；

由最小二乘法可知：

$f(W)=XW$

其中矩阵 $X_{N*p},W_{p*1}$ 。

$X=\begin{pmatrix} x_1^T \\ x_2^T \\ ... \\ x_N^T \\ \end{pmatrix}=\begin{pmatrix} x_{11} & x_{12} & ... & x_{1p} \\ x_{21} & x_{22} & ... & x_{2p} \\ ... & ... & ... & ... \\ x_{N1} & x_{N2} & x_{Np} & 1 \end{pmatrix}_{N*p}$ ，这里 $X$ 对一列一列来看，这 $p$ 个N维向量就构成 $p$ 维子空间；这里的 $Y_{N*1}$ 是不在 $p$ 维子空间，除非数据集每个样本点都被完全拟合；

在这里我们 $f(W)=X\theta$ 改写成 $f(W)=X\beta$ ；

几何意义：在 $p$ 维子空间找到一个平面 $f(\beta)$ ，使得 $Y_{N*1}$ 与此 $f(\beta)$ 最近，即 $Y_{N*1}$ 在 $p$ 维子空间的投影，则满足 $Y-f(W)$ 与 $p$ 维子空间的基向量垂直。如下图所示：

综上可知： $X^T(Y-f(W))=0$

$X^T(Y-X\beta)=0$

$X^TY=X^TX\beta$

$\beta=(X^TX)^{-1}X^TY$

概率视角

概率视角主要考察最小二乘法与高斯分布之间的关系

考虑第 $i$ 个样本 $x_i$ 的真实输出 $y_i$ 和 $f(x_i)$ 存在如下关系：

$y_i = f(x_i) + \varepsilon =\theta^Tx_i + \varepsilon_i$

其中 $\varepsilon_i$ 表示由噪声引起的误差项， $\varepsilon_i$ 服从均值0，标准差为 $\delta$ 的高斯分布，则 $y|x;w\sim N(\theta^Tx,\delta^2)$ 。

整理可得： $p(y_i|x_i;\theta)=\frac{1}{\sqrt{2\pi}}exp\left ( -\frac{(\theta^Tx_i - y_i)^2}{2\delta^2} \right )$

利用对数最大似然估计有：

$L(\theta)=\log P(Y|X;\theta)=\log \prod_{i=1}^{N}P(y_i|x_i;\theta)=\sum_{i=1}^{N}\log P(y_i|x_i;\theta)$

$=\sum_{i=1}^{N}\log \frac{1}{\sqrt{2\pi}\delta}+\sum_{i=1}^{N}\log exp \left ( -\frac{(\theta^Tx_i-y_i)^2}{2\delta^2}\right)$

$=\sum_{i=1}^{N} \left( \log \frac{1}{\sqrt{2\pi}\delta} - \frac{1}{2\delta^2}(\theta^Tx_i-y_i)^2 \right )$

$\hat{\theta}=\arg \max_\theta L(\theta)$

$=\arg \max_\theta \left( -\frac{1}{2\delta^2}(\theta^Tx_i-y_i)^2 \right)$

$=\arg \min_\theta \left(\theta^Tx_i-y_i \right)^2$ 等价于损失函数 ${\color{Red} L\left( \theta \right ) = \sum_{i=1}^{N}\left \| \theta^Tx_i-y_i \right \|^{2}{\color{Red} }}$

综上可知：最小二乘估计等价于噪声服从高斯分布的极大似然估计；

正则化

由上面可知，最小二乘的损失函数为 $L(\theta)=\sum_{i=1}^{N}\left \| \theta^Tx_i-y_i \right \|^2$ ，解析解为 $\hat{\theta}=(X^TX)^{-1}X^TY$ 。

其中 $X_{N*(p+1)}$ ， $N$ 个样本, $x_i \in \mathbb{R}^{p+1}$ ,多出来的一维度是因为方便与偏置加法计算。一般情况下， $N>>(p+1)$ ;

模型过拟合的解决方案：

加数据
特征选择/特征提取.(PCA)
正则化

正则化框架如下：

$\arg \min_\theta \left [ L(\theta) + \lambda P(\theta) \right ]$

其中， $P(\theta)$ 为惩罚项， L1: lasso, $P(\theta) = \left \| \theta \right \|$

L2: Ridge, $P(\theta) = \left \| \theta \right \|_{2}^{2}=\theta^T\theta$

带L1正则化的线性回归的损失函数：

$J(\theta)=\sum_{i=1}^{N}\left \| \theta^Tx_i-y_i \right \|^2+\lambda \left \| \theta \right \|=\sum_{i=1}^{N}\left \| \theta^Tx_i-y_i \right \|^2+\lambda \sum_{i=1}^{p+1}\left | \theta_i \right |$

$=(\theta^TX^T-Y^T)(XW-Y)+\lambda \sum_{i=1}^{p+1}\left | \theta_i \right |$

$=\theta^TX^TXW-2\theta^TX^TY+Y^TY+\lambda \sum_{i=1}^{p+1}\left | \theta_i \right |$

由于 $\theta_i$ 的正负无法确定，因为这里将 $\sum_{i=1}^{p+1}\left | \theta_i \right |$ 转换成 $\sum_{i=1}^{p+1}\theta_i\cdot sign(\theta_i)$ 进行求导， $sign(\cdot )$ 为符号函数。

$\bigtriangledown_\theta J(\theta) =\theta^TX^TXW-2\theta^TX^TY+Y^TY+\lambda \sum_{i=1}^{p+1}\left | \theta_i \right |$

$=\theta^TX^TXW-2\theta^TX^TY+Y^TY+\lambda \sum_{i=1}^{p+1}\theta_i\cdot sign(\theta_i)$

$=2X^TX\theta - 2X^TY+\lambda\cdot sign(\theta_i)$

令 $\bigtriangledown_\theta J(\theta) = 0$ ，可得 $2X^TX\theta - 2X^TY+\lambda\cdot sign(\theta_i)=0$ ，有 $X^T(Y-X\theta)=\lambda\cdot sign(\theta_i)$ , 在这里是得不到解析解的，那么如何求解L1正则化的极小值呢？可采用坐标轴下降法(Coordinate Descent)和最小角回归法(Least Angle Regressionm), 此处不展开。

带L2正则化的线性回归的损失函数：

$J(\theta)=\sum_{i=1}^{N}\left \| \theta^Tx_i-y_i \right \|^2+\lambda \theta^T\theta$

$=(\theta^TX^T-Y^T)(XW-Y)+\lambda\theta^T\theta$

$=\theta^TX^TXW-2\theta^TX^TY+Y^TY+\lambda\theta^T\theta$

$=\theta^T(X^TX + \lambda I)\theta-2\theta^TX^TY+Y^TY$

$\hat{\theta}=\arg \min_\theta J(\theta)$

在前边已经详细推导过，这里不在详细推导，求导结果为 $\bigtriangledown_\theta J(\theta) =2(X^TX+\lambda I)\theta - 2X^TY$

令 $\bigtriangledown_\theta J(\theta) = 0$ ，可得 $2(X^TX+\lambdaI)\theta - 2X^TY=0$ ，求解得到 $\theta=(X^TX+\lambda I)^{-1}X^TY$

正则化的几何解释

带L2正则化的线性回归：

在最大似然估计中，是假设权重 $\theta$ 是未知的参数，从而求得对数似然函数：

$L(\theta)=\log P(Y|X;\theta)=\log \prod_{i=1}^{N}P(y_i|x_i;\theta)=\sum_{i=1}^{N}\log P(y_i|x_i;\theta)$

在最大化后验概率估计中，是将权重 $\theta$ 看作随机变量，也具有某种概率分布，从而有：

$P(X;\theta | Y)=\frac{P(Y | X;\theta)\cdot P(\theta)}{P(Y)}\propto P(Y | X;\theta)\cdot P(\theta)$

利用最大化后验概率可以有：

后验概率函数: $L(\theta)=\log P(X;\theta | Y)= \log P(Y | X;\theta)\cdot P(X;\theta)=\log P(Y |X; \theta) + \log P(X;\theta)$

后验概率函数是在似然函数的基础上增加了 $\log P(X;\theta)$ ， $P(X;\theta)$ 的意义为对权重系数 $\theta$ 的概率分布的先验假设，在收集到足够的数据集 $D$ ，则依据在数据集 $D$ 下的后验概率对权重系数 $\theta$ 进行修正，从而完成对权重系数 $\theta$ 的估计。

这里假设权重系数 $\theta$ 的先验分布为高斯分布， $\theta \sim N(0,\delta_0^2)$ .如下图所示：

则有：

$P(X;\theta)=\frac{1}{\sqrt{2\pi}\delta_0} exp(-\frac{\left \| \theta \right \|_2^2}{2\delta_0^2})$ ,

$P(Y|X;\theta)=\frac{1}{\sqrt{2\pi}\delta} exp(-\frac{\left \| \theta^Tx-y \right \|_2^2}{2\delta^2})$

MAP： $\hat{\theta}=\arg \max_\theta \log P(X;\theta|Y)=arg \max_\theta \log \left [ P(Y|X;\theta)\cdot P(X;\theta)\right]$

$=arg \max_\theta \log \left \{ \frac{1}{\sqrt{2\pi}\delta_0} exp(-\frac{\left \| \theta \right \|_2^2}{2\delta_0^2}) \cdot \frac{1}{\sqrt{2\pi}\delta} exp(-\frac{\left \| \theta^Tx-y \right \|_2^2}{2\delta^2}) \right \}$

$=arg \max_\theta \log \left \{ \frac{1}{\sqrt{2\pi}\delta_0} \frac{1}{\sqrt{2\pi}\delta} \right \} + \log exp \left \{ -\frac{\left \| \theta \right \|_2^2}{2\delta_0^2}-\frac{\left \| \theta^Tx-y \right \|_2^2}{2\delta^2} \right \}$

$=arg \max_\theta \log exp \left \{ -\frac{\left \| \theta \right \|_2^2}{2\delta_0^2}-\frac{\left \| \theta^Tx-y \right \|_2^2}{2\delta^2} \right \}$

$=arg \min_\theta \left \{ \frac{\left \| \theta \right \|_2^2}{2\delta_0^2}+\frac{\left \| \theta^Tx-y \right \|_2^2}{2\delta^2} \right \}$

$=arg \min_\theta \left \{ \frac{\delta^2}{\delta_0^2}\left \| \theta \right \|_2^2+\left \| \theta^Tx-y \right \|_2^2 \right \}$

MAP: $\hat{\theta}_{MAP}=\arg \min_\theta \sum_{i=1}^{N}(\theta^Tx_i-y_i)^2+\lambda \theta^T\theta$ , $\lambda=\frac{\delta^2}{\delta_0^2}$

综上可知，最小二乘估计LSE 等价于极大似然估计MLE(noise 为Gaussian Distribution)

L2正则化最小二乘估计Regularized LSE 等价于最大后验概率估计MAP (priod 和 noise均为Gaussian Distribution)

同理，带L1正则化的线性回归：

这里假设权重系数 $\theta$ 的先验分布为拉普拉斯分布， $\theta \sim La(0,\delta_0)$ .

则有：

$P(X;\theta)=\frac{1}{2\delta_0} exp (-\frac{\left | \theta \right |}{\delta_0} )$ ,

$P(Y|X;\theta)=\frac{1}{\sqrt{2\pi}\delta} exp(-\frac{\left \| \theta^Tx-y \right \|_2^2}{2\delta^2})$

MAP： $\hat{\theta}=\arg \max_\theta \log P(X;\theta|Y)=arg \max_\theta \log \left [ P(Y|X;\theta)\cdot P(X;\theta)\right]$

$=arg \max_\theta \log \left \{ \frac{1}{2\delta_0} exp (-\frac{\left | \theta \right |}{\delta_0} ) \cdot \frac{1}{\sqrt{2\pi}\delta} exp(-\frac{\left \| \theta^Tx-y \right \|_2^2}{2\delta^2}) \right \}$

$=arg \max_\theta \log \left \{ \frac{1}{2\delta_0} \frac{1}{\sqrt{2\pi}\delta} \right \} + \log exp \left \{ -\frac{\left | \theta \right |}{\delta_0}-\frac{\left \| \theta^Tx-y \right \|_2^2}{2\delta^2} \right \}$

$=arg \max_\theta \left \{ -\frac{\left | \theta \right |}{\delta_0}-\frac{\left \| \theta^Tx-y \right \|_2^2}{2\delta^2} \right \}$

$=arg \min_\theta \left \{ \frac{\left | \theta \right |}{\delta_0}+\frac{\left \| \theta^Tx-y \right \|_2^2}{2\delta^2} \right \}$

$=arg \min_\theta \left \{ \frac{ 2\delta^2}{\delta_0}\left | \theta \right |+\left \| \theta^Tx-y \right \|_2^2\right \}$

MAP: $\hat{\theta}_{MAP}=arg \min_\theta \left \{ \frac{ 2\delta^2}{\delta_0}\left | \theta \right |+\left \| \theta^Tx-y \right \|_2^2\right \}$ , $\lambda=\frac{2\delta^2}{\delta_0}$