线性回归

假设

$H_{\theta}(x)=\theta^Tx$
目标函数为

$\frac{1}{2}\sum_{i=1}^m(H_{\theta}^{(i)}(x)-y^{i})^2$

求导后获得单个实例的梯度下降公式

$\theta_j:=\theta_j-(H_{\theta}^{(i)}(x)-y^{i})x_j^{(i)}$

使用法方程法则假设

$X\theta=Y$

求解

$\theta=(X^TX)^{-1}X^TY$

Logistic回归

逻辑函数:

$g(z)=\frac{1}{1+e^{-z}}$

特性:

$g (z)^{'} = g (z) (1 - g (z))$

分类假设:

$H_{\theta}(x)=\frac{1}{1+e^{-\theta^Tx}}$
$P(y=1|x;\theta)=H_{\theta}(x)$
$P(y=0|x;\theta)=1-H_{\theta}(x)$

则可以获得似然函数

$L(\theta)=\prod_{i=1}^{m}H_{\theta}(x^{(i)})^{y^{i}}+(1-H_{\theta}(x^{(i)}))^{(1-y^{i})}$

$l(\theta)=\sum_{i=1}^{m}y^{i}logH_{\theta}(x^{(i)})+(1-y^{i})log(1-H_{\theta}(x^{(i)}))$

求导后获得梯度上升公式

$\theta_j:=\theta_j+(y^{i}-H_{\theta}^{(i)}(x))x_j^{(i)}$

softmax分类

logistic在多分类的推广

$H_{\theta}(x^{(i)})= \left[ \begin{matrix} P(y^{(i)}=1|x^{(i)};\theta)\\ ...\\ ...\\ ...\\ P(y^{(i)}=k|x^{(i)};\theta)\\ \end{matrix} \right] =\frac{1}{Z} \left[ \begin{matrix} e^{\theta_1^Tx^{(i)}}\\ ...\\ ...\\ ...\\ e^{\theta_1^Tx^{(i)}}\\ \end{matrix} \right]$

似然函数为

$\sum_{i=1}^{m}\sum_{j=1}^{k} 1\{y^{(i)}=k\}log\frac{e^{\theta_j^Tx^{(i)}}}{\sum_{t=1}^ke^{\theta_1^Tx^{(i)}}}$

感知器算法

使得错误分类的点个数最少

$\left\{ \begin{aligned} 1 ;z>0 \\ -1 ;z<0 \end{aligned} \right.$

目标函数为误分类点到超平面的总距离

$\sum_{x\in M}-\frac{1}{ \left | w\right|}y^{(i)}(wx^{i}+b)$

由于主要关注错误分类点的个数，舍弃 $\frac{1}{ \left | w\right|}$

$\sum_{x\in M}-y^{(i)}(wx^{i}+b)$

SVM算法

支持向量与分隔平面的距离最大化

函数边界 $\hat{r}^{(i)}= y^{(i)}(w^Tx^{(i)}+b)$
几何边界 $r^{(i)}= \frac{y^{(i)}(w^Tx^{(i)}+b)}{\left | w\right|}$

目标为最小几何边界最大，也即

$max\ \ \ r$
$\ \ \frac{y^{(i)}(w^Tx^{(i)}+b)}{\left | w\right|} \geqslant r$

也即

$max\ \ \ \frac{\hat{r}}{ |w| }$
$\ \ y^{(i)}(w^Tx^{(i)}+b) \geqslant \hat{r}$

缩放 $w$ 和 $b$ 使得 $\hat{r}=1$ ，则

$min\ \ \ |w|^2$

$\ \ y^{(i)}(w^Tx^{(i)}+b) -1 \geqslant 0$

使用拉格朗日乘子法得到其对偶问题，满足KKT条件求解

$w^*=\sum_{i=1}^N\alpha_i^*y_ix_i$
$b^*=y_j-\sum_{i=1}^N\alpha_i^*y_ix_ix_j$

核函数:解决线性不可分的问题。
映射函数 $\phi$ ， $< x, z >$ 变为 $<\phi(x),\phi(z)>$
对应核函数 $K(x,z)=<\phi(x),\phi(z)>$

线性核
高斯核, $\sigma$ 越大,高维衰减越快，拟合能力变差
多项式核

软件界:

$\ \ \ \frac{1}{2}||w||^2+C\sum_{i=1}^n\epsilon_i$

$\ \ y^{(i)}(w^Tx^{(i)}+b) \geqslant 1-\epsilon_i$

$\epsilon_i \geqslant 0 ,\ \ \ \ \ i=1...N$

SVR: 找出一个超平面,使多有数据到该超平面的距离最小

$\ \ \ \frac{1}{2}||w||^2+C\sum_{i=1}^n(\xi_i+\xi_i^*)$

$\ \ y^{(i)}-(w^Tx^{(i)}+b) \leq \epsilon +\xi_i$

$\ \ (w^Tx^{(i)}+b) - y^{(i)} \leq \epsilon +\xi_i^*$
$\\xi_i,\xi_i^* \geqslant 0 ,\ \ \ \ \ i=1...N$

机器学习-回归分类

线性回归

分类

Logistic回归

softmax分类

感知器算法

SVM算法

猜你喜欢