第三节 —— 视角切换到机器学习
我们把刚才统计中的各种符号和术语渐变到机器学习中来。
需要转换的术语 |
统计回归分析 |
机器学习 |
x
i |
Independent variable of the
ith sample |
第 i 条数据的特征向量 |
β
|
Regression coefficients |
权重(参数)
w
,需要学习的东西 |
Pi |
Dependent variable |
输出,要预测的东西 |
Pi=1+exp(− xi
Tβ
)1
⇕
y=σ(w
Tx
) |
Transformation |
Activation function |
一切似乎都逐渐明朗了。
w
Tx
不就是特征的 weighted sum 嘛。假如共有k个特征(b 表示bias):
w
=⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧w1w2..wkb⎭⎪⎪⎪⎪⎪⎪⎬⎪⎪⎪⎪⎪⎪⎫xi
=⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧xi1xi2..xik1⎭⎪⎪⎪⎪⎪⎪⎬⎪⎪⎪⎪⎪⎪⎫
还记不记得最简单粗暴的 Perceptron 二分类? 神经网络入门时都会看到这样一张图:
Sign() 就是一个简单粗暴的step function。当自变量低于阈值时,函数值为0,超过阈值时函数值为1. 它也算一个 activation function吧,作用就是给
w
Tx
套一层外衣,变成了输出。但是sign() 不可导成为了致命伤。于是我们给
w
Tx
换件衣服变成:
σ(w
Tx
)=1+exp(− w
Tx
)1←这就舒服多了!
σ()光滑可导并且值域还刚好是(0,1),因此可以模拟概率。
像回归分析中的一样,考虑一个二分类模型,label服从
Bernoulli(p) 分布,
yi=1 (正例) 的概率为
Pi 。之后,训练 logistic regression模型意味着用特征的线性组合去拟合p的对数几率 (跟刚才一样)。
Model:log(1−PiPi)=w
Tx
⇔⎩⎪⎨⎪⎧Pi=P(yi=1 ∣ xi
)=1+exp(−w
Tx
)1=σ(w
Tx
) 1−Pi=P(yi=0 ∣ xi
)=1+exp(−w
Tx
)exp(−w
Tx
)=1−σ(w
Tx
)
所以,模型输出是
σ(w
Tx
),它的含义是:在看到
xi
的条件下,模型认为
yi=1 的概率。如果输出大于
21,则预测正例,如果小于
21,则预测负例。