线性回归和逻辑回归介绍

概述

线性回归和逻辑回归是机器学习中最基本的两个模型，线性回归一般用来解决预测问题，逻辑回归一般解决分类问题，线性回归模型和逻辑回归模型之间既有区别又有关联。

线性回归模型

假定训练数据集为
$T = \{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}$
拟合函数为
$f(x_i) =wx_i+b,i=1,2,...,n$
用最小二乘法，既是找到一条直线，使所有样本数据到直线的欧式距离之和最小，所以损失函数为
$J(w,b)=\sum_{i=1}^n(f(x_i)-y_i)^2=\sum_{i=1}^n(y_i-wx_i-b)^2$
求损失函数的最小值
$\arg\min_{w,b} J(w,b)=\min_{w,b}\sum_{i=1}^n(f(x_i)-y_i)^2=\min_{w,b}\sum_{i=1}^n(y_i-wx_i-b)^2$
对其求导
$\frac {\partial J(w,b)}{\partial w}=\frac {\partial (\sum_{i=1}^n(w^2x_i^2+(y_i-b)^2-2wx_i(y_i-b)))}{\partial w}=2\sum_{i=1}^n(wx_i^2-x_i(y_i-b))$
$\frac {\partial J(w,b)}{\partial b}=\frac {\partial (\sum_{i=1}^n(w^2x_i^2+(y_i-b)^2-2wx_i(y_i-b)))}{\partial b}$

$=\frac {\partial (\sum_{i=1}^n(w^2x_i^2+(y_i^2-2by_i+b^2)-2wx_iy_i+2wx_ib))}{\partial b}=2\sum_{i=1}^n(b+wx_i-y_i)=2nb-2\sum_{i=1}^n(y_i-wx_i)$
另两个偏导等于0，求w和b
$w = \frac {\sum_{i=1}^nx_i(y_i-b)}{\sum_{i=1}^nx_i^2}=\frac {\sum_{i=1}^nx_i(y_i-\bar y+w\bar x)}{\sum_{i=1}^nx_i^2}$

$=\frac {\sum_{i=1}^nx_i(y_i-\bar y+w\bar x)}{\sum_{i=1}^nx_i^2}=\frac {\sum_{i=1}^n(x_i(y_i-\bar y)+wx_i\bar x))}{\sum_{i=1}^nx_i^2}$

$=\frac {\sum_{i=1}^n(x_i(y_i-\bar y))}{\sum_{i=1}^nx_i^2-n\bar x^2}=\frac {\sum_{i=1}^nx_iy_i-n\bar x\bar y}{\sum_{i=1}^nx_i^2-n\bar x^2}$

$b = \frac {1}{n}\sum_{i=1}^ny_i- w\frac {1}{n}\sum_{i=1}^nx_i=\bar y-w\bar x$
从而得到线性回归的拟合函数

逻辑回归模型

对应二分类问题，输出 $y\in\{0,1\}$ ，可以通过对线性回归模型添加Sigmoid激活函数实现逻辑回归模型，Sigmoid函数如下：
$y=\frac{1}{1+e^{-z}}$
它可以将 $z$ 的值转化为接近 $0$ 或 $1$ 的 $y$ 值，并且在 $z=0$ 附近变化很陡，线性回归模型加入Sigmoid激活函数后变为
$y=\frac{1}{1+e^{-(wx+b)}}$
其对数几率函数为
$ln\frac{y}{1-y}=wx+b$
如果将 $y$ 视为类后验概率 $p(y=1|x)$ ，则上式可以表示为
$ln\frac{p(y=1|x)}{p(y=0|x)}=wx+b$
所以有二项逻辑回归模型如下
$\begin{cases} \quad p(y=1|x)=\frac{exp(wx+b)}{1+exp(wx+b)}\\ \quad p(y=0|x)=\frac{1}{1+exp(wx+b)}\\ st. \quad x \in \Bbb R^n,y \in \{0,1\} \end{cases}$
逻辑回归比较两个条件概率的大小，将实例 $x$ 分配到概率较大的一类
假设:
$P(y=1|x)=\pi(x),P(y=0|x)=1-\pi(x)$
似然函数：
$\prod_{i=1}^n[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$
对数似然函数：
$L(w)=\sum_{i=1}^n[y_i\log\pi(x_i)+(1-y_i)\log(1-\pi(x_i))]$

$=\sum_{i=1}^n[y_i\log{\pi(x_i) \over {1-\pi(x_i)}}+log(1-\pi(x_i))]$

$=\sum_{i=1}^n[y_i(w\cdot x_i+b)-log(1+exp(w\cdot x_i+b))]$

对 $L(w)$ 求极大值，得 $w$ 的估计值，这样问题就变成了以对数似然函数为目标函数的最优化问题，逻辑回归通常采用梯度下降或拟牛顿法
$L(W)$ 为目标函数，最优化为：

${\arg\max likelihood}_{w}(L(w))$

$\frac{\partial L(w)}{\partial w}=\sum_{i=1}^ny_ix_i-\sum_{i=1}^{n}\frac{exp(wx_i+b)}{1+exp(wx_i+b)}x_i=\sum_{i=1}^n(y_i-\frac{1}{1+exp(-(wx_i+b))})x_i$