一、Ridge Regression岭回归
最小二乘法的改进,加入正则项(L2)
min||xω-y||²+α||ω||² (α≥0)
α越大,正则项比重越大,模型间方差越小,系数越稳定
α越趋近0,越接近最小二乘法
可尝试不同的α,画系数变化图选取合适的α,原则是系数要稳定
二、Lasso Regression
使用L1正则项,可以去掉某些feature,岭回归只是把某些feature的权重调小
α||ω||
feature多且稀疏时,可以用lasso去掉一些feature,所以lasso还可以用来降维
feature不多且稠密,用ridge,弱化一些feature的权重
三、正则项的理解
L0、L1、L2范数
建模时,不仅要使误差和最小,还要让模型尽量简单,否则如果只追求误差小,就会过拟合。当feature很多时,L0和L1可使某些feature的参数为0,L2可使某些feature的参数很小,这样模型就简单了。
四、回归系数的求解
线性回归、ridge回归都可以用梯度下降的方法求解、因为需要最小化的损失函数是连续可导的。(α||ω||²求导后ω还在,α||ω||求导ω没了)
但Lasso用L1,使得损失函数有不可导的点,不能用梯度下降求系数,但可以用以下方法:
坐标轴下降法、前向选择、前向梯度法、最小角回归
有空再更新以上几个方法原理的图解。
四、贝叶斯线性回归
有变量X₁、X₂...Xm,其系数是ω1、ω2...ωm,这些系数未知,一种系数组合表示为Θ,有无数个Θ。
一组X₁、X₂...Xm对应一个结果值y,即一个样本。
n个y值,即一组结果值表示为D。
现在问题转化为,从众多的参数组合θ中,选一种Θ,使已知观察值D发生的条件下,此Θ发生的概率最大。即求P(Θ|D)最大的那个Θ。
P(Θ|D)=P(D|Θ)*P(Θ)/P(D)
对于所有Θ,P(D)都相等,所以只求P(D|Θ)*P(Θ)最大的Θ就好了。
1. P(Θ)要根据先验知识求,即先验概率,可以假设Θ是均匀分布,或者高斯分布。
2. P(D|Θ)是已知了D的分布形式,线性问题中即ω1X1+ω2X2...+ωmXm的分布,分布参数就是Θ,所以可求。