【MachineLearning】之线性回归（理论）

Topic

什么是线性回归？原理及实现

什么是最小二乘法？

最小二乘法代数求解

最小二乘法矩阵求解

本篇是理论篇，实战篇：线性回归实战

一、线性回归

先来回想下：回归
回归面对的一群连续值，从这群连续的点钟找出误差最小的线，从而来预估其他点

通过找到一条直线去拟合数据点的分布趋势的过程，就是线性回归的过程

然而这种线可能会有很多，那么如何从中找出最合适的线呢？
找到红线？
这里写图片描述

二、最小二乘法代数求解

最小二乘法是用于求解线性回归拟合参数 w 的一种常用方法，（均方误差最小）

先来理解下 平方损失函数

$y (x, w) = b + w x$ $y(x,w)=b+wx$
对数据进行拟合时，得到拟合的整体误差（即蓝色线段的长度总和）

平方损失函数

如果一个数据点为（ $xi, yi$ ），那么它对应的误差（损失）为：

$y i - (b + w x i)$ $yi - (b + wxi)$

那么损失总和：

$\sum_{i = 1}^{n} (y i - (b + w x i))$ $\sum_{i=1}^n(yi−(b+wxi))$
更倾向于使用 均方误差 作为衡量损失的指标
$\sum_{i = 1}^{n} (y i - (b + w x i))^{2}$ $\sum_{i=1}^n(yi−(b+wxi))^2$

（1）平方损失函数：

f = \sum_{i = 1}^{n} (y i - (b + w x i))^{2}

$f = \sum_{i=1}^n(yi−(b+wxi))^2$

（2）目标求 $min(f)$ 最小时，对应的 $w$

分别对 w 和 b 求导，一阶偏导，并令其为零

\frac{\partial f}{\partial w} = 2 (w \sum_{i = 1}^{n} x^{2} - \sum_{i = 1}^{n} (y - b) x) = 0

$\frac{\partial f}{\partial w}= 2 (w\sum_{i=1}^{n}x^{2} - \sum_{i=1}^{n}(y - b)x) = 0$

\frac{\partial f}{\partial b} = 2 (m b - \sum_{i = 1}^{n} (y - w x)) = 0

$\frac{\partial f}{\partial b}= 2 (mb - \sum_{i=1}^{n}(y - wx)) = 0$

（3）求得：

w = \frac{\sum_{i = 1}^{n} y (x - x 1)}{\sum_{i = 1}^{n} x^{2} - \frac{1}{m} (\sum_{i = 1}^{n} x)^{2}}

$w = \frac{\sum_{i=1}^{n}y(x-x1)}{\sum_{i=1}^{n}x^{2} - \frac{1}{m}(\sum_{i=1}^{n}x)^{2}}$
均值：

x 1 = \frac{1}{n} \sum_{i = 1}^{m} x

$x1 = \frac{1}{n}\sum_{i=1}^{m} x$

b = \frac{1}{m} \sum_{i = 1}^{n} (y - w x)

$b = \frac{1}{m}\sum_{i=1}^{n}(y - wx)$

（4）结果

这样，就求出了平方损失函数最小时对应的 ww 参数值，这也就是最佳拟合直线

三、最小二乘法矩阵求解

为什么又要用矩阵来运算呢？代数计算方法不好吗？

并不是代数计算方式不好，只是在小数据集情况下，二者运算的效率相近

当面临十万或百万规模的数据时，矩阵计算的效率就会高很多

（1） $y = wx + b$ ，表达矩阵形式为：

\begin{matrix} (1) & [\begin{matrix} x 1 & 1 \\ x 2 & 1 \\ x 3 & 1 \\ . . . & . . . \\ x n & 1 \end{matrix}] \end{matrix}

$\left[ \begin{matrix} x1 & 1 \\ x2 & 1 \\ x3 & 1 \\ ...& ...\\ xn & 1 \end{matrix} \right] \tag{1}$

即： $y = XW$

（2）平方损失函数： $f = \sum_{i=1}^n(yi−(b+wxi))^2$

\begin{matrix} (2) & f = \sum_{i = 1}^{n} (y - X W)^{2} = \sum_{i = 1}^{n} (y - X W)^{T} (y - X W) \end{matrix}

$f = \sum_{i=1}^n(y - XW)^2 = \sum_{i=1}^n(y - XW)^T(y-XW) \tag{2}$

（3）对矩阵求偏导数

\begin{matrix} (3) & f = 2 * X^{T} X W - 2 * X^{T} y = 0 \end{matrix}

$f = 2 * X^TXW - 2 * X^Ty = 0 \tag{3}$

注意：

这里将 W 看做是系数变量，即 $W^T = W$ ，W是常量，固定的W转置是等价的。

（4）求得

当矩阵 $X^TX$ 满秩（先不考虑不满秩）时， $(X^TX)^{-1}X^TX = E$ ，且 $EW = W$

所以， $(X^TX)^{-1}X^TXW = (X^TX)^{-1}X^Ty$

得到：

W = (X^{T} X)^{- 1} X^{T} y

$W = (X^TX)^{-1}X^Ty$

最后

看到这边是否有些疲惫，奖励自己一杯肥仔快乐水吧！！！

下一篇将介绍线性回归实战

加油！！！