第三节 —— 视角切换到机器学习

我们把刚才统计中的各种符号和术语渐变到机器学习中来。

需要转换的术语	统计回归分析	机器学习
$\vec x_i$	Independent variable of the $i^{th}$ sample	第 i 条数据的特征向量
$\vec{\beta}$	Regression coefficients	权重（参数） $\vec{w}$ ，需要学习的东西
$P_i$	Dependent variable	输出，要预测的东西
$P_i=\frac{1}{1+exp(-\ \vec{x_i}^T\vec{\beta})}$ $\Updownarrow$ $y=\sigma(\vec{w}^T\vec{x})$	Transformation	Activation function

一切似乎都逐渐明朗了。

$\vec{w}^T\vec{x}$ 不就是特征的 weighted sum 嘛。假如共有k个特征（b 表示bias）：

$\vec{w}=\left\{ \begin{matrix} w_1\\w_2\\.\\.\\w_k\\b \end{matrix} \right\} \quad \quad \vec{x_i} = \left\{ \begin{matrix} x_{i1}\\x_{i2}\\.\\.\\x_{ik}\\1 \end{matrix} \right\}$

还记不记得最简单粗暴的 Perceptron 二分类？神经网络入门时都会看到这样一张图：

在这里插入图片描述

Sign() 就是一个简单粗暴的step function。当自变量低于阈值时，函数值为0，超过阈值时函数值为1. 它也算一个 activation function吧，作用就是给 $\vec{w}^T\vec{x}$ 套一层外衣，变成了输出。但是sign() 不可导成为了致命伤。于是我们给 $\vec{w}^T\vec{x}$ 换件衣服变成： $\sigma(\vec{w}^T\vec{x}) = \frac{1}{1+exp(- \ \vec{w}^T\vec{x})} \quad\leftarrow 这就舒服多了！$

$\sigma()$ 光滑可导并且值域还刚好是（0，1），因此可以模拟概率。

像回归分析中的一样，考虑一个二分类模型，label服从 $Bernoulli(p)$ 分布， $y_i=1$ (正例) 的概率为 $P_i$ 。之后，训练 logistic regression模型意味着用特征的线性组合去拟合p的对数几率（跟刚才一样）。

$Model: log(\frac{P_i}{1-P_i}) = \vec{w}^T\vec{x} \quad \Leftrightarrow \quad \begin{cases} P_i=P(y_i=1\ |\ \vec{x_i}) = \frac{1}{1+exp(-\vec{w}^T\vec{x})}=\sigma(\vec{w}^T\vec{x}) \\ \ \\ 1-P_i= P(y_i=0\ |\ \vec{x_i})= \frac{exp(-\vec{w}^T\vec{x})}{1+exp(-\vec{w}^T\vec{x})}=1-\sigma(\vec{w}^T\vec{x}) \end{cases}$

所以，模型输出是 $\sigma(\vec{w}^T\vec{x})$ ，它的含义是：在看到 $\vec {x_i}$ 的条件下，模型认为 $y_i=1$ 的概率。如果输出大于 $\frac{1}{2}$ ，则预测正例，如果小于 $\frac{1}{2}$ ，则预测负例。

细讲逻辑斯蒂回归与朴素贝叶斯、最大熵原理的爱恨交织（三）

第三节 —— 视角切换到机器学习

猜你喜欢