step1

同样考虑一个而分类问题，此时Function Set 为 $f_{x} = P_{w,b}(C_1|x)=\sigma (z)=\frac{1}{1+exp\{-(wx+b)\}}$ ，如果 $P_{w,b}(C_1|x)>0.5$ ，class为 $C_1$ ，否则为 $C_2$ 。
这里写图片描述

step2

class $C_1$ 的标记 $\hat{y}$ 为1，class $C_2$ 的标记 $\hat{y}$ 为0， $P_{w,b}(C_1|x)=f_{w,b}(x)^{\hat{y}}+(1-f_{w,b}(x))^{1-\hat{y}}$ ，

L (w, b) = \prod_{i = 1}^{n} P (C_{1} | x_{i}), l n L = \sum_{i = 1}^{n} [{\hat{y}}^{i} f_{w, b} (x^{i}) + (1 - {\hat{y}}^{i}) (1 - f_{w, b} (x^{i}))]

$L(w,b)=\prod _{i=1}^nP(C_1|x_i),lnL=\sum_{i=1}^n[\hat{y}^if_{w,b}(x^i)+(1-\hat{y}^i)(1-f_{w,b}(x^i))]$

根据极大似然估计，为了极大化 $L(w,b)$ ，等价于极小化 $-lnL$ ，求解得到 $w^*,b^*=argmin_{w,b}\sum_{i=1}^n-[\hat{y}^if_{w,b}(x^i)+(1-\hat{y}^i)(1-f_{w,b}(x^i))]$

$C(f(x^n),\hat(y)^n)=-[\hat{y}^nf_{w,b}(x^n)+(1-\hat{y}^n)(1-f_{w,b}(x^n))]$ 表示Cross entropy between two Bernoulli distribution。

step3

这里写图片描述

Logistic Regression与Linear Regression

差异

这里写图片描述

为什么在Logistic回归中使用Cross entropy而非MSE做模型选择的标准？

假设Logistic回归使用和线性回归中一样的MSE做选择标准，
这里写图片描述

假设 $\hat{y}=1,f_{w,b}(x^n)=1$ ，此时接近目标，带入计算得到 $\frac{\partial L}{\partial w_i}=0$ ，没有问题
假设 $\hat{y}=1,f_{w,b}(x^n)=0$ ，此时距离目标很远，带入计算得到 $\frac{\partial L}{\partial w_i}=0$ ，结果错误
假设 $\hat{y}=0,f_{w,b}(x^n)=1$ ，此时距离目标很远，带入计算得到 $\frac{\partial L}{\partial w_i}=0$ ，结果错误
假设 $\hat{y}=0,f_{w,b}(x^n)=0$ ，此时接近目标，带入计算得到 $\frac{\partial L}{\partial w_i}=0$ ，没有问题

如图，横轴坐标表示参数的值，纵坐标为总损失，比较使用Cross Entropy（黑色）和Square Error（红色）标准的不同：
这里写图片描述

Cross Entropy曲面陡峭，因此当初始值距离目标值越远微分值越大，参数更新越快；Square Error的曲面和平坦，当初始值距离目标值远时微分值也不大，参数更新慢，一开始就卡住，即使考虑在微分值很小把学习速率设置大也不可行，因为当趋近于目标值的时候微分值也很小，过大的学习速率会导致跨过目标值的点。