线性回归
假设
H θ ( x ) = θ T x H_{\theta}(x)=\theta^Tx Hθ(x)=θTx
目标函数为
1 2 ∑ i = 1 m ( H θ ( i ) ( x ) − y i ) 2 \frac{1}{2}\sum_{i=1}^m(H_{\theta}^{(i)}(x)-y^{i})^2 21i=1∑m(Hθ(i)(x)−yi)2
求导后获得单个实例的梯度下降公式
θ j : = θ j − ( H θ ( i ) ( x ) − y i ) x j ( i ) \theta_j:=\theta_j-(H_{\theta}^{(i)}(x)-y^{i})x_j^{(i)} θj:=θj−(Hθ(i)(x)−yi)xj(i)
使用法方程法则假设
X θ = Y X\theta=Y Xθ=Y
求解
θ = ( X T X ) − 1 X T Y \theta=(X^TX)^{-1}X^TY θ=(XTX)−1XTY
分类
基于线性回归的思想,一个直观的想法:
对于二分类问题,类别标签分别为 1 1 1和 0 0 0,将分类问题使用线性回归求解,之后按照 0.5 0.5 0.5为界限来划分两类数据。
问题:线性回归进行分类容易受到异常值的影响
解决方法:
- Logistic回归: 减小离分类平面较远点的权重
- SVM:只考虑决定最大分类平面的点(支持向量)
Logistic回归
逻辑函数:
g ( z ) = 1 1 + e − z g(z)=\frac{1}{1+e^{-z}} g(z)=1+e−z1
特性:
g ( z ) ′ = g ( z ) ( 1 − g ( z ) ) g(z)'=g(z)(1-g(z)) g(z)′=g(z)(1−g(z))
分类假设:
H θ ( x ) = 1 1 + e − θ T x H_{\theta}(x)=\frac{1}{1+e^{-\theta^Tx}} Hθ(x)=1+e−θTx1
P ( y = 1 ∣ x ; θ ) = H θ ( x ) P(y=1|x;\theta)=H_{\theta}(x) P(y=1∣x;θ)=Hθ(x)
P ( y = 0 ∣ x ; θ ) = 1 − H θ ( x ) P(y=0|x;\theta)=1-H_{\theta}(x) P(y=0∣x;θ)=1−Hθ(x)
则可以获得似然函数
L ( θ ) = ∏ i = 1 m H θ ( x ( i ) ) y i + ( 1 − H θ ( x ( i ) ) ) ( 1 − y i ) L(\theta)=\prod_{i=1}^{m}H_{\theta}(x^{(i)})^{y^{i}}+(1-H_{\theta}(x^{(i)}))^{(1-y^{i})} L(θ)=i=1∏mHθ(x(i))yi+(1−Hθ(x(i)))(1−yi)
l ( θ ) = ∑ i = 1 m y i l o g H θ ( x ( i ) ) + ( 1 − y i ) l o g ( 1 − H θ ( x ( i ) ) ) l(\theta)=\sum_{i=1}^{m}y^{i}logH_{\theta}(x^{(i)})+(1-y^{i})log(1-H_{\theta}(x^{(i)})) l(θ)=i=1∑myilogHθ(x(i))+(1−yi)log(1−Hθ(x(i)))
求导后获得梯度上升公式
θ j : = θ j + ( y i − H θ ( i ) ( x ) ) x j ( i ) \theta_j:=\theta_j+(y^{i}-H_{\theta}^{(i)}(x))x_j^{(i)} θj:=θj+(yi−Hθ(i)(x))xj(i)
softmax分类
logistic在多分类的推广
H θ ( x ( i ) ) = [ P ( y ( i ) = 1 ∣ x ( i ) ; θ ) . . . . . . . . . P ( y ( i ) = k ∣ x ( i ) ; θ ) ] = 1 Z [ e θ 1 T x ( i ) . . . . . . . . . e θ 1 T x ( i ) ] H_{\theta}(x^{(i)})= \left[ \begin{matrix} P(y^{(i)}=1|x^{(i)};\theta)\\ ...\\ ...\\ ...\\ P(y^{(i)}=k|x^{(i)};\theta)\\ \end{matrix} \right] =\frac{1}{Z} \left[ \begin{matrix} e^{\theta_1^Tx^{(i)}}\\ ...\\ ...\\ ...\\ e^{\theta_1^Tx^{(i)}}\\ \end{matrix} \right] Hθ(x(i))=⎣⎢⎢⎢⎢⎡P(y(i)=1∣x(i);θ).........P(y(i)=k∣x(i);θ)⎦⎥⎥⎥⎥⎤=Z1⎣⎢⎢⎢⎢⎡eθ1Tx(i).........eθ1Tx(i)⎦⎥⎥⎥⎥⎤
似然函数为
∑ i = 1 m ∑ j = 1 k 1 { y ( i ) = k } l o g e θ j T x ( i ) ∑ t = 1 k e θ 1 T x ( i ) \sum_{i=1}^{m}\sum_{j=1}^{k} 1\{y^{(i)}=k\}log\frac{e^{\theta_j^Tx^{(i)}}}{\sum_{t=1}^ke^{\theta_1^Tx^{(i)}}} i=1∑mj=1∑k1{ y(i)=k}log∑t=1keθ1Tx(i)eθjTx(i)
感知器算法
使得错误分类的点个数最少
g ( z ) = { 1 ; z > 0 − 1 ; z < 0 g(z)= \left\{ \begin{aligned} 1 ;z>0 \\ -1 ;z<0 \end{aligned} \right. g(z)={ 1;z>0−1;z<0
目标函数为误分类点到超平面的总距离
∑ x ∈ M − 1 ∣ w ∣ y ( i ) ( w x i + b ) \sum_{x\in M}-\frac{1}{ \left | w\right|}y^{(i)}(wx^{i}+b) x∈M∑−∣w∣1y(i)(wxi+b)
由于主要关注错误分类点的个数,舍弃 1 ∣ w ∣ \frac{1}{ \left | w\right|} ∣w∣1
∑ x ∈ M − y ( i ) ( w x i + b ) \sum_{x\in M}-y^{(i)}(wx^{i}+b) x∈M∑−y(i)(wxi+b)
SVM算法
支持向量与分隔平面的距离最大化
函数边界 r ^ ( i ) = y ( i ) ( w T x ( i ) + b ) \hat{r}^{(i)}= y^{(i)}(w^Tx^{(i)}+b) r^(i)=y(i)(wTx(i)+b)
几何边界 r ( i ) = y ( i ) ( w T x ( i ) + b ) ∣ w ∣ r^{(i)}= \frac{y^{(i)}(w^Tx^{(i)}+b)}{\left | w\right|} r(i)=∣w∣y(i)(wTx(i)+b)
目标为最小几何边界最大,也即
m a x r max\ \ \ r max r
s . t . y ( i ) ( w T x ( i ) + b ) ∣ w ∣ ⩾ r s.t. \ \ \frac{y^{(i)}(w^Tx^{(i)}+b)}{\left | w\right|} \geqslant r s.t. ∣w∣y(i)(wTx(i)+b)⩾r
也即
m a x r ^ ∣ w ∣ max\ \ \ \frac{\hat{r}}{ |w| } max ∣w∣r^
s . t . y ( i ) ( w T x ( i ) + b ) ⩾ r ^ s.t. \ \ y^{(i)}(w^Tx^{(i)}+b) \geqslant \hat{r} s.t. y(i)(wTx(i)+b)⩾r^
缩放 w w w和 b b b使得 r ^ = 1 \hat{r}=1 r^=1,则
m i n ∣ w ∣ 2 min\ \ \ |w|^2 min ∣w∣2
s . t . y ( i ) ( w T x ( i ) + b ) − 1 ⩾ 0 s.t. \ \ y^{(i)}(w^Tx^{(i)}+b) -1 \geqslant 0 s.t. y(i)(wTx(i)+b)−1⩾0
使用拉格朗日乘子法得到其对偶问题,满足KKT条件求解
w ∗ = ∑ i = 1 N α i ∗ y i x i w^*=\sum_{i=1}^N\alpha_i^*y_ix_i w∗=i=1∑Nαi∗yixi
b ∗ = y j − ∑ i = 1 N α i ∗ y i x i x j b^*=y_j-\sum_{i=1}^N\alpha_i^*y_ix_ix_j b∗=yj−i=1∑Nαi∗yixixj
核函数:解决线性不可分的问题。
映射函数 ϕ \phi ϕ , < x , z > <x,z> <x,z>变为 < ϕ ( x ) , ϕ ( z ) > <\phi(x),\phi(z)> <ϕ(x),ϕ(z)>
对应核函数 K ( x , z ) = < ϕ ( x ) , ϕ ( z ) > K(x,z)=<\phi(x),\phi(z)> K(x,z)=<ϕ(x),ϕ(z)>
- 线性核
- 高斯核, σ \sigma σ越大,高维衰减越快,拟合能力变差
- 多项式核
软件界:
m i n 1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 n ϵ i min \ \ \ \frac{1}{2}||w||^2+C\sum_{i=1}^n\epsilon_i min 21∣∣w∣∣2+Ci=1∑nϵi
s . t . y ( i ) ( w T x ( i ) + b ) ⩾ 1 − ϵ i s.t. \ \ y^{(i)}(w^Tx^{(i)}+b) \geqslant 1-\epsilon_i s.t. y(i)(wTx(i)+b)⩾1−ϵi
ϵ i ⩾ 0 , i = 1... N \epsilon_i \geqslant 0 ,\ \ \ \ \ i=1...N ϵi⩾0, i=1...N
SVR: 找出一个超平面,使多有数据到该超平面的距离最小
m i n 1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 n ( ξ i + ξ i ∗ ) min \ \ \ \frac{1}{2}||w||^2+C\sum_{i=1}^n(\xi_i+\xi_i^*) min 21∣∣w∣∣2+Ci=1∑n(ξi+ξi∗)
s . t . y ( i ) − ( w T x ( i ) + b ) ≤ ϵ + ξ i s.t. \ \ y^{(i)}-(w^Tx^{(i)}+b) \leq \epsilon +\xi_i s.t. y(i)−(wTx(i)+b)≤ϵ+ξi
( w T x ( i ) + b ) − y ( i ) ≤ ϵ + ξ i ∗ \ \ (w^Tx^{(i)}+b) - y^{(i)} \leq \epsilon +\xi_i^* (wTx(i)+b)−y(i)≤ϵ+ξi∗
x i i , ξ i ∗ ⩾ 0 , i = 1... N \\xi_i,\xi_i^* \geqslant 0 ,\ \ \ \ \ i=1...N xii,ξi∗⩾0, i=1...N