细讲逻辑斯蒂回归与朴素贝叶斯、最大熵原理的爱恨交织(三)

第三节 —— 视角切换到机器学习


我们把刚才统计中的各种符号和术语渐变到机器学习中来。

需要转换的术语 统计回归分析 机器学习
x i \vec x_i Independent variable of the i t h i^{th} sample 第 i 条数据的特征向量
β \vec{\beta} Regression coefficients 权重(参数) w \vec{w} ,需要学习的东西
P i P_i Dependent variable 输出,要预测的东西
P i = 1 1 + e x p (   x i T β ) P_i=\frac{1}{1+exp(-\ \vec{x_i}^T\vec{\beta})}

\Updownarrow

y = σ ( w T x ) y=\sigma(\vec{w}^T\vec{x})
Transformation Activation function

一切似乎都逐渐明朗了。

w T x \vec{w}^T\vec{x} 不就是特征的 weighted sum 嘛。假如共有k个特征(b 表示bias):

w = { w 1 w 2 . . w k b } x i = { x i 1 x i 2 . . x i k 1 } \vec{w}=\left\{ \begin{matrix} w_1\\w_2\\.\\.\\w_k\\b \end{matrix} \right\} \quad \quad \vec{x_i} = \left\{ \begin{matrix} x_{i1}\\x_{i2}\\.\\.\\x_{ik}\\1 \end{matrix} \right\}


还记不记得最简单粗暴的 Perceptron 二分类? 神经网络入门时都会看到这样一张图:

在这里插入图片描述

Sign() 就是一个简单粗暴的step function。当自变量低于阈值时,函数值为0,超过阈值时函数值为1. 它也算一个 activation function吧,作用就是给 w T x \vec{w}^T\vec{x} 套一层外衣,变成了输出。但是sign() 不可导成为了致命伤。于是我们给 w T x \vec{w}^T\vec{x} 换件衣服变成: σ ( w T x ) = 1 1 + e x p (   w T x ) \sigma(\vec{w}^T\vec{x}) = \frac{1}{1+exp(- \ \vec{w}^T\vec{x})} \quad\leftarrow 这就舒服多了!

σ ( ) \sigma() 光滑可导并且值域还刚好是(0,1),因此可以模拟概率。

像回归分析中的一样,考虑一个二分类模型,label服从 B e r n o u l l i ( p ) Bernoulli(p) 分布, y i = 1 y_i=1 (正例) 的概率为 P i P_i 。之后,训练 logistic regression模型意味着用特征的线性组合去拟合p的对数几率 (跟刚才一样)。

M o d e l : l o g ( P i 1 P i ) = w T x { P i = P ( y i = 1     x i ) = 1 1 + e x p ( w T x ) = σ ( w T x )   1 P i = P ( y i = 0     x i ) = e x p ( w T x ) 1 + e x p ( w T x ) = 1 σ ( w T x ) Model: log(\frac{P_i}{1-P_i}) = \vec{w}^T\vec{x} \quad \Leftrightarrow \quad \begin{cases} P_i=P(y_i=1\ |\ \vec{x_i}) = \frac{1}{1+exp(-\vec{w}^T\vec{x})}=\sigma(\vec{w}^T\vec{x}) \\ \ \\ 1-P_i= P(y_i=0\ |\ \vec{x_i})= \frac{exp(-\vec{w}^T\vec{x})}{1+exp(-\vec{w}^T\vec{x})}=1-\sigma(\vec{w}^T\vec{x}) \end{cases}


所以,模型输出是 σ ( w T x ) \sigma(\vec{w}^T\vec{x}) ,它的含义是:在看到 x i \vec {x_i} 的条件下,模型认为 y i = 1 y_i=1 的概率。如果输出大于 1 2 \frac{1}{2} ,则预测正例,如果小于 1 2 \frac{1}{2} ,则预测负例。

猜你喜欢

转载自blog.csdn.net/weixin_43928665/article/details/106817243