机器学习系列--关于LR的两个问题

逻辑回归是应用非常广泛的一个分类机器学习算法，有关LR的算法推导以及计算过程有很多资料可以参考，在这里我们就不再赘述。这里我们主要关心两个问题，也是在面试的过程经常会被问到的，下面我们就分别介绍。

LR为什么使用sigmoid函数

Logistic回归虽然名字里带“回归”，但是它实际上是一种分类方法，主要用于两分类问题（即输出只有两种，分别代表两个类别）。假设训练样本的类别为 $C_1$ 和 $C_2$ ，样本中属于 $C_1$ 和 $C_2$ 的样本数分别为 $N_1$ 和 $N_2$ 个。这里我们通过使用贝叶斯概率推导出LR中为什么使用的是Sigmoid函数。样本属于 $C_1$ 的概率如下：

P (C 1 | x) = P ( x | C 1 ) P ( C 1 ) P ( x | C 1 ) P ( C 1 ) + P ( x | C 2 ) P ( C 2 ) = 1 1 + P ( x | C 2 ) P ( C 2 ) P ( x | C 1 ) P ( C 1 ) = 1 1 + e x p ( - z ) = σ (z)

$P\left( {C_1{\rm{ }}|x} \right) = {{P(x|C_1{\rm{ }})P\left( {C_1{\rm{ }}} \right)} \over {P\left( {x|C_1{\rm{ }}} \right)P\left( {C_1{\rm{ }}} \right) + P(x|C_2{\rm{ }})P(C_2{\rm{ }})}} \\ = \frac{1}{1 + \frac{P(x|C_2{\rm{ }})P(C_2{\rm{ }})}{P(x|C_1{\rm{ }})P(C_1{\rm{ }}){\rm{ }}}}\\ =\frac{ 1}{ {1 + exp\left( { - z} \right){\rm{ }}} }=\sigma \left( z \right)$

z = l n P ( x | C 1 ) P ( C 1 ) P ( x | C 2 ) P ( C 2 ) z = l n P ( x | C 1 ) P ( x | C 2 ) + l n P ( C 1 ) P ( C 2 )

$z = ln{{P\left( {x|C1{\rm{ }}} \right)P\left( {C1{\rm{ }}} \right)} \over {P(x|C_2{\rm{ }})P(C_2{\rm{ }})}}z= ln{{P\left( {x|C_1{\rm{ }}} \right)} \over {P(x|C_2{\rm{ }})}} + ln{\rm{ }}{{P\left( {C_1{\rm{ }}} \right)} \over {P\left( {C_2{\rm{ }}} \right)}}$

l n P ( C 1 ) P ( C 2 ) = l n N 1 N 1 + N 2 N 2 N 1 + N _ 2 = l n N 1 N 2

$ln{\rm{ }}{{P\left( {C_1{\rm{ }}} \right)} \over {P\left( {C_2{\rm{ }}} \right)}}=ln{{{{N_1} \over {N_1 + N_2}}} \over {{{N_2} \over {N_1 + N\_2{\rm{ }}}}}} =ln {{N_1} \over {N_2}}$
接下来是很关键的一步，我们假设训练集中的样本服从高斯分布。即类别为

C1 $C_1$ 的样本服从均值为

μ1 $\mu^1$ 方差为

Σ1 $\Sigma^1$ 的高斯分布，类别为

C2 $C_2$ 的样本服从均值为

μ2 $\mu^2$ 方差为

Σ2 $\Sigma^2$ 的高斯分布。

P (x | C 1) = 1 ( 2 π ) D / 2 1 | Σ 1 | 1 / 2 e x p {- 1 2 (x - μ 1) T (Σ 1) - 1 (x - μ 1)}

$P(x|C_1)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma^1|^{1/2}}exp\{-\frac{1}{2}(x-\mu^1)^T(\Sigma^1)^{-1}(x-\mu^1)\}$

P (x | C 2) = 1 ( 2 π ) D / 2 1 | Σ 2 | 1 / 2 e x p {- 1 2 (x - μ 2) T (Σ 2) - 1 (x - μ 2)}

$P(x|C_2)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma^2|^{1/2}}exp\{-\frac{1}{2}(x-\mu^2)^T(\Sigma^2)^{-1}(x-\mu^2)\}$
有了上面的假设，我们就可以继续计算

z $z$ 了

l n P ( x | C 1 ) P ( x | C 2 ) = l n 1 ( 2 π ) D / 2 1 | Σ 1 | 1 / 2 e x p { - 1 2 ( x - μ 1 ) T ( Σ 1 ) - 1 ( x - μ 1 ) } 1 ( 2 π ) D / 2 1 | Σ 2 | 1 / 2 e x p { - 1 2 ( x - μ 2 ) T ( Σ 2 ) - 1 ( x - μ 2 ) } = l n | Σ 2 | 1 / 2 | Σ 1 | 1 / 2 - 1 2 [(x - μ 1) T (Σ 1) - 1 (x - μ 1) - (x - μ 2) T (Σ 2) - 1 (x - μ 2)]

$ln{{P\left( {x|C_1{\rm{ }}} \right)} \over {P(x|C_2{\rm{ }})}} = ln{\frac{\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma^1|^{1/2}}exp\{-\frac{1}{2}(x-\mu^1)^T(\Sigma^1)^{-1}(x-\mu^1)\}}{\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma^2|^{1/2}}exp\{-\frac{1}{2}(x-\mu^2)^T(\Sigma^2)^{-1}(x-\mu^2)\}}}\\ = ln{\frac{|\Sigma^2|^{1/2}}{|\Sigma^1|^{1/2}}}-\frac{1}{2}[(x-\mu^1)^T(\Sigma^1)^{-1}(x-\mu^1)-(x-\mu^2)^T(\Sigma^2)^{-1}(x-\mu^2)]$
所以

z = l n | Σ 2 | 1 / 2 | Σ 1 | 1 / 2 - 1 2 x T (Σ 1) - 1 x + (μ 1) T (Σ 1) - 1 x - 1 2 (μ 1) T (Σ 1) - 1 μ 1 + 1 2 x T (Σ 2) - 1 x - (μ 2) T (Σ 2) - 1 x + - 1 2 (μ 2) T (Σ 2) - 1 μ 2 + l n N 1 N 2

$z= ln{\frac{|\Sigma^2|^{1/2}}{|\Sigma^1|^{1/2}}}-\frac{1}{2}x^T(\Sigma^1)^{-1}x+(\mu^1)^T(\Sigma^1)^{-1}x-\frac{1}{2}(\mu^1)^T(\Sigma^1)^{-1}\mu^1 \\ +\frac{1}{2}x^T(\Sigma^2)^{-1}x-(\mu^2)^T(\Sigma^2)^{-1}x+-\frac{1}{2}(\mu^2)^T(\Sigma^2)^{-1}\mu^2+ln {{N_1} \over {N_2}}$

P (C 1 | x) = σ (z)

$P\left( {C_1{\rm{ }}|x} \right) =\sigma \left( z \right)$
此时

z $z$ 仍然很复杂，我们进一步假设两类样本服从方差一样，均值不一样的高斯分布，即

Σ1=Σ2=Σ $\Sigma^1=\Sigma^2=\Sigma$ ,此时，

z = (μ 1 - μ 2) T Σ - 1 x - 1 2 (μ 1) T Σ - 1 μ 1 + 1 2 (μ 2) T Σ - 1 μ 2 + l n N 1 N 2

$z=(\mu^1-\mu^2)^T\Sigma^{-1}x-\frac{1}{2}(\mu^1)^T\Sigma^{-1}\mu^{1}+\frac{1}{2}(\mu^2)^T\Sigma^{-1}\mu^{2}+ln {{N_1} \over {N_2}}$
到这里，是不是就很熟悉了，

w=(μ1−μ2)TΣ−1 $w=(\mu^1-\mu^2)^T\Sigma^{-1}$ ，

b=−12(μ1)TΣ−1μ1+12(μ2)TΣ−1μ2+lnN1N2 $b=-\frac{1}{2}(\mu^1)^T\Sigma^{-1}\mu^{1}+\frac{1}{2}(\mu^2)^T\Sigma^{-1}\mu^{2}+ln {{N_1}\over {N_2}}$

P (C 1 | x) = σ (w \cdot x + b)

$P\left( {C_1{\rm{ }}|x} \right) =\sigma \left(w\cdot x+b\right)$

w $w$ 和

b $b$ 就是LR模型要学习的参数，也是假设样本的高斯分布的参数的组合。如果我们假设样本服从的是其他的分布，可能得到的就不是Sigmoid函数了，以上就是LR中为什么使用的是Sigmoid函数。

LR中损失函数为什么不能使用平方损失函数

LR的损失函数是交叉熵损失函数，使用梯度下降的方法去训练模型的参数。在回归问题中，我们常使用平方损失作为损失函数，然后使用最小二乘计算。那么问题来了，在LR中能否使用平方损失作为损失函数呢？答案是否定的，理由如下–假设我们使用平方损失作为LR的损失函数，那么 $L(f)$ 定义如下：

f w, b (x) = σ (\sum i w i x i + b)

$f_{w,b}(x)=\sigma(\sum_{i}{w_ix_i+b})$

L (f) = 1 2 \sum n (f w, b (x n) - y n) 2

$L(f)=\frac{1}{2}\sum_{n}{(f_{w,b}(x^n)-y^n)^2}$
那么

∂L∂wi=∂(fw,b(x)−y)2∂wi=2(fw,b(x)−y)∂fw,b(x)∂z∂z∂wi=2(fw,b(x)−y)fw,b(x)(1−fw,b(x))xi $\frac{\partial L}{\partial w_i}=\frac{\partial (f_{w,b}(x)-y)^2}{\partial w_i}=2(f_{w,b}(x)-y)\frac{\partial f_{w,b}(x)}{\partial z}\frac{\partial z}{\partial w_i}=2(f_{w,b}(x)-y)f_{w,b}(x)(1-f_{w,b}(x))x_i$
当样本的label

y=0 $y=0$ 时，如果模型预测为

fw,b(x)=1 $f_{w,b}(x)=1$ ，这是模型离正确的预测很远，但是

∂L∂wi=0 $\frac{\partial L}{\partial w_i}=0$ ，此时利用梯度更新参数时，给我们的假象却是我们已经达到了最优解，而实际上我们还远远没有达到最优解!这就说明在LR中，我们是不能使用平方损失作为损失函数的！

horizonheart

发布了8 篇原创文章 · 获赞 36 · 访问量 2万+

私信关注