逻辑回归(Logistic Regression)

这是一个软性二分类问题：关心的是目标函数的值(分布在[0,1]之间)，表示正类的概率是多少。值越接近于1，表示正类的可能性越大。

目标函数： $f(x) = P(+1|x)\in [0,1] \Leftrightarrow P(y|x) = \{^{f(x), for y = +1}_{1-f(x), for y = -1}$

理想中的数据是分布在[0,1]之间的具体值，但是实际中的数据只可能是0或1，可以把实际中的数据看成是理想数据加上了噪声的影响。
其hypothesis： $h(x) = \frac{1}{1+e^{-w^Tx}}$
目标：求出这个预测函数，使它接近目标函数 $f((x)$
似然性：若找到一个hypothesis h(x)很接近target function，也就是说，在所有的hypothesis中找到一个h(x)与f(x)最接近，能产生同样的数据集D，则称这个h(x)为最大似然性。

假设数据集 $D = \{(x_1,\circ),(x_2,\times),\dots,(x_N,\times)\}$
probability that f generates D:

P (x_{1}) f (x_{1}) \times P (x_{2}) (1 - f (x_{2})) \times \dots \times P (X_{N}) (1 - f (X_{N}))

$P(x_1)f(x_1)\times P(x_2)(1-f(x_2))\times \dots \times P(X_N)(1-f(X_N))$
likelihood that h generates D:

P (x_{1}) f (x_{1}) \times P (x_{2}) (1 - f (x_{2})) \times \dots \times P (X_{N}) (1 - f (X_{N}))

$P(x_1)f(x_1)\times P(x_2)(1-f(x_2))\times \dots \times P(X_N)(1-f(X_N))$
(若

h \approx f

$h\approx f$ ,则likelihood h的公式如上所示)

logistic function: $h(x) = \theta(w^Tx)$ 满足一个性质： $1-h(x) = h(-x)$ .
那么，likelihood h的公式为:

l i k e l i h o o d (h) = P (x_{1}) h (+ x_{1}) \times P (x_{2}) h (- x_{2}) \times \dots P (x_{N}) h (- x_{N})

$likelihood(h) = P(x_1)h(+x_1)\times P(x_2)h(-x_2)\times \dots P(x_N)h(-x_N)$

因为 $P(x_n)$ 对所有的h来说都是一样的，所以可以忽略。则ikelihood正比于所有的 $h(y_nx_n)$ 的乘积。
目标是使乘积最大化。

m a x_{h} l i k e l i h o o d (h) \propto \prod_{n = 1}^{N} h (y_{n} x_{n})

$max_h likelihood(h) \propto \prod_{n=1}^{N}h(y_nx_n)$
将w带入：

m a x_{w} l i k e l i h o o d (w) \propto \prod_{n = 1}^{N} θ (y_{n} w^{T} x_{n})

$max_w likelihood(w) \propto \prod_{n=1}^{N}\theta(y_nw^Tx_n)$
为了简化计算，引入

\ln

$\ln$ 操作：

m a x_{w} \sum_{n = 1}^{N} \ln θ (y_{n} w^{T} x_{n})

$max_w \sum_{n=1}^N\ln \theta(y_nw^Tx_n)$
将maximize问题转化为minimize问题，并引入平均数

\frac{1}{N}

$\frac{1}{N}$ :

m i n_{w} \frac{1}{N} \sum_{n = 1}^{N} - \ln θ (y_{n} w^{T} x_{n})

$min_w\frac{1}{N}\sum_{n=1}^N -\ln\theta(y_nw^Tx_n)$
将logistic function

θ (s)

$\theta(s)$ 的表达式带入，得：

m i n_{w} \frac{1}{N} \sum_{n = 1}^{N} \ln (1 + e x p (- y n w^{T} x_{n}))

$min_w\frac{1}{N}\sum_{n=1}^N\ln(1+exp(-ynw^Tx_n))$

⟹ m i n_{w} \frac{1}{N} e r r (w, x_{n}, y_{n})

$\Longrightarrow min_w\frac{1}{N}err(w,x_n,y_n)$
由此得到了logistic function的err function,称之为 cross-entropy error 交叉信息熵:

e r r (w, x, y) = \ln (1 + e x p (- y w^{T} x))

$err(w,x,y)=\ln(1+exp(-yw^Tx))$
则接下来的目标是：找到合适的向量w，使err(即训练误差

E_{i n}

$E_{in}$ )最小。

$E_{in}$ 的曲线是凸函数，那么只要计算出 $\nabla E_{in}=0$ 时的w，即为最优解。

\nabla E_{i n} = \frac{1}{N} \sum_{n = 1}^{N} θ (- y_{n} w^{T} x_{n}) (- y_{n} x_{n}) = 0

$\nabla E_{in} = \frac{1}{N}\sum_{n=1}^N\theta(-y_nw^Tx_n)(-y_nx_n) = 0$
其中

θ (- y_{n} w^{T} x_{n})

$\theta(-y_nw^Tx_n)$ 可看成时

- y_{n} x_{n}

$-y_nx_n$ 的线性加权。
要使线性加权和为0，有两种情况：
第一种：若所有的权重

θ (- y_{n} w^{T} x_{n}) = 0

$\theta(-y_nw^Tx_n)=0$ ,则

\nabla E_{i n} = 0

$\nabla E_{in}=0$ 因为

θ (- y_{n} w^{T} x_{n})

$\theta(-y_nw^Tx_n)$ 为sigmoid function，只要

- y_{n} w^{T} x_{n} << 0

$-y_nw^Tx_n<<0$ ,即

y_{n} w^{T} x_{n} >> 0

$y_nw^Tx_n>>0$ ,就可使结果为0。而

y_{n} w^{T} x_{n} >> 0

$y_nw^Tx_n>>0$ 表示对所有的点

y_{n}

$y_n$ 和

w^{T} x_{n}

$w^Tx_n$ 都是同号的，这表示数据集必须是线性可分的才能成立。
但是，保证线性可分不现实，更多的情况是线性不可分的。
第二种：非线性可分，只能通过使加权和为0来求解w。这种情况只能使用迭代来逐步求解。
将

E_{i n}

$E_{in}$ 曲线比作一个山谷，则使

E_{i n}

$E_{in}$ 最小，即可比作下山的过程。整个下山过程受两个因素影响：下山的单位方向

ν

$\nu$ 和下山的补偿

η

$\eta$ .
利用微分思想和线性近似，根据泰勒一节展开：

E_{i n} (w_{t} + η ν) \approx E_{i n} (w_{t}) + η ν^{T} \nabla E_{i n} (w_{t})

$E_{in}(w_t+\eta\nu) \approx E_{in}(w_t)+\eta\nu^T\nabla E_{in}(w_t)$
要让

E_{i n} (w_{t} + η ν) < E_{i n} (w_{t})

$E_{in}(w_t+\eta\nu)<E_{in}(w_t)$ ,则

ν

$\nu$ 方向要与

E_{i n}

$E_{in}$ 方向相反，
令下降方向

ν

$\nu$ 为：

ν = - \frac{\nabla E_{i n} (w_{t})}{| | \nabla E_{i n} (w_{t}) | |}

$\nu = -\frac{\nabla E_{in}(w_t)}{||\nabla E_{in}(w_t)||}$

ν

$\nu$ 是单位向量,

ν

$\nu$ 每次都是沿着梯度的反方向走，这种方法称为 梯度下降*(gradient descent)
那么：

w_{t + 1} \leftarrow w_{t} - η \frac{\nabla E_{i n} (w_{t})}{| | \nabla E_{i n} (w_{t}) | |}

$w_{t+1} \leftarrow w_{t} - \eta\frac{\nabla E_{in}(w_t)}{||\nabla E_{in}(w_t)||}$

令 $\eta\prime = \frac{\eta}{||\nabla E_{in}(w_t)||}$ ,则：

w_{t + 1} \leftarrow w_{t} - η' \nabla E_{i n} (w_{t})

$w_{t+1} \leftarrow w_t - \eta\prime\nabla E_{in}(w_t)$
根据该公式不断循环，最终即可求得w

总结一下基于梯度下降的logistic regression算法步骤：
$\cdot$ 初始化w
$\cdot$ 计算t梯度 $\nabla E_{in}$
$\cdot$ 迭代 $w_{t+1} \leftarrow w_t - \eta\prime\nabla E_{in}(w_t)$
$\cdot$ 当满足 $\nabla E_{in}(w_{t+1}) = 0$ 或达到迭代次数时，迭代结束。

接下来从另一个角度来说逻辑回归。
这种方法也是梯度下降，但是使用的cost function与上面的 $E_{in}$ 不一样。
令

c o s t (h (w), y) = {\begin{cases} - \log (h_{w} (x)), & y = 1 \\ - \log (1 - h_{w} (x)), & y = 0 \end{cases}

$cost(h(w),y) = \begin{cases} -\log(h_w(x)), &y=1\\ -\log(1-h_w(x)),&y=0 \end{cases}$

⟹

$\Longrightarrow$

c o s t (h_{w} (x), y) = - y \log (h_{w} (x))) - (1 - y) l o g (1 - h_{w} (x))

$cost(h_w(x),y) = -y\log(h_w(x)))-(1-y)log(1-h_w(x))$
则整个数据集的cost function为：

J (w) = \frac{1}{N} \sum_{n = 1}^{N} c o s t (h_{w} (x_{n}), y_{n})

$J(w) = \frac{1}{N}\sum_{n=1}^Ncost(h_w(x_n),y_n)$
(也可用最大似然法推出来）

目的：求出最小的 $J(w)$
使用梯度下降法：
repeat{
$w_i = w_i - \alpha \frac{\partial J(w)}{\partial w_i}$
}

其中： $\frac{\partial J(w)}{\partial w_i} = \frac{1}{N}\sum_{n=1}^{N}(h_w(x_n)-y_n)x_{nj}$ ,
$w_j$ 表示第j个特征的权重。

具体推导就不推了。

逻辑回归(Logistic Regression)

逻辑回归(Logistic Regression)

猜你喜欢