Logistic Regression逻辑回归原理及推导

逻辑回归算法，虽说名字有回归，实则是一个分类模型，而且是二分类。
Logistic本质上是一个基于条件概率的判别模型（Discriminative Model）
g(z) = $\frac{1}{1+e^{-z}}$
这里写图片描述

通过这个图像sigma函数，通常以0.5为分界，大于0.5为正样本，反之为负样本，是一个二分类的方法。
那么将这个函数扩展到多维空间，就是说不只是二分类，而是多分类问题，那么原始的函数
g(z) = $\frac{1}{1 + e^{ -z }}$ （二分类）

就要变成

$h_\theta(x)=g(\theta^T x)=\frac{1}{1 + e^{ - \theta^T x}}$ （多分类）
现在需要解决的一个问题是求 $\theta$ ，如何得到合适的参数向量 $\theta$
根据sigma函数的特性，我们可以这样假设一下：
$P(y = 1 | x; \theta) = h_\theta(x)$ (根据当前的参数，提供样本x，该样本属于y=1的概率）
$P(y = 0 | x; \theta) = 1 - h_\theta(x)$
上两式为已知样本X和参数 $\theta$ 的前提下，样本X属于正样本(y = 1) 负样本 (y = 0）的条件概率

然后将以上两个公式进行合并

$P(y | x; \theta) = (h_\theta(x))^y(1 - h_\theta(x))^{1 - y}$
这个公式也就是对二分类综合的公式，能分别求出属于正样本、负样本的概率

此时会用到最大似然估计的知识。最大似然估计的目的是：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。

既然概率出来了，那么最大似然估计也该使用了。假定样本与样本之间相互独立，那么整个样本集生成的概率即为所有样本生成概率的乘积：

$L(\theta) = p ( \vec{y} | X; \theta) = \prod_{i = 1}^{m}(h_\theta(x^{(i)}))^{y^{(i)}}(1 - h_\theta(x^{(i)}))^{1 - y^{(i)}}$

为了简化问题，我们对整个表达式求对数（将指数问题对数化是处理数学问题常见的方法）：

$l(\theta) = log\ L(\theta) = \sum^m_{i=1}log\ h(x^{(i)}) + (1 - y^{(i)})log(1 - h(x^{(i)}))$

满足似然函数 $(\theta)$ 的最大的 $\theta$ 值即是我们需要求解的模型。

梯度上升算法
$X_{i+1} = X_i + \alpha * \frac{\partial f(X_i)}{X_i}$

其中， $\alpha$ 为步长。
回到Logistic Regression问题，我们同样对函数求偏导。
$\frac{\partial}{\partial \theta_j}l(\theta) = (y\frac{1}{g(\theta^Tx)} - (1 - y)\frac{1}{1-g(\theta^Tx)} )\frac{\partial}{\partial \theta_j}g(\theta^Tx) \\ \quad\quad\quad= (y\frac{1}{g(\theta^Tx)} - (1 - y)\frac{1}{1-g(\theta^Tx)} )g(\theta^Tx)(1-g(\theta^Tx))\frac{\partial}{\partial \theta_j}\theta^Tx \\ \quad\quad\quad= (y(1-g(\theta^Tx))-(1-y)g(\theta^Tx))x_j\\ \quad\quad\quad=(y - h_\theta(x))x_j$

对以上公式的详细过程：

$\frac{\partial}{\partial \theta_j}l(\theta) = \frac{\partial l(\theta)}{\partial g(\theta^Tx)} * \frac{\partial g(\theta^Tx)}{\partial \theta^Tx} * \frac{\partial \theta^Tx}{\partial\theta_j}$

其中：

$l(\theta) = y*log\ g(\theta^Tx) + (1-y)log(1- g(\theta^Tx))$
$\frac{\partial l(\theta)}{\partial g(\theta^Tx)} = y * \frac{1}{g(\theta^Tx)} + (1 - y) * \frac{1}{1 - g(\theta^Tx)} * (-1)$

令 $z=\theta^Tx$

$g(z)^{'} = \frac{d}{dz}\frac{1}{1+e^{-z}}\\ \quad\quad=\frac{1}{({1+e^{-z})}^2}(e^{-z}) \\\quad\quad=\frac{1}{(1+e^{-z})}*(1-\frac{1}{(1+e^{-z})})\\\quad\quad=g(z)(1-g(z))$

可得：

$\frac{\partial g(\theta^Tx)}{\partial \theta^Tx} = g(\theta^Tx)*(1-g(\theta^Tx))$

接下来就剩下第三部分：
$\frac{\partial \theta^Tx}{\partial \theta_j} = \frac{\partial(\theta_1x_1+\theta_2x_2+...+\theta_mx_m)}{\partial \theta_j} = x_j$

（这个公式应该很容易理解，简单的偏导公式，只有第j项进行计算）

再有就是：

$h_\theta(x) = g(\theta^Tx) = \frac{1}{1 + e^{-\theta^Tx}}$

综合第三部分即得到：
$\frac{\partial}{\partial\theta_j}l(\theta) = (y - h_\theta(x))x_j$

因此，梯度迭代公式为：
$\theta_j := \theta_j + \alpha(y^{(i)} - h_\theta(x^{(i)}))x^{(i)}_j$

本篇文章参考了http://www.cnblogs.com/bonelee/p/7253508.html，并对齐进行了整理，思路更清晰直观。

Logistic Regression逻辑回归原理及推导

猜你喜欢