笔记抄写3——sklearn回归相关

一、Ridge Regression岭回归

最小二乘法的改进，加入正则项（L2）

min||xω-y||²+α||ω||² (α≥0)

α越大，正则项比重越大，模型间方差越小，系数越稳定

α越趋近0，越接近最小二乘法

可尝试不同的α，画系数变化图选取合适的α，原则是系数要稳定

二、Lasso Regression

使用L1正则项，可以去掉某些feature，岭回归只是把某些feature的权重调小

α||ω||

feature多且稀疏时，可以用lasso去掉一些feature，所以lasso还可以用来降维

feature不多且稠密，用ridge，弱化一些feature的权重

三、正则项的理解

L0、L1、L2范数

建模时，不仅要使误差和最小，还要让模型尽量简单，否则如果只追求误差小，就会过拟合。当feature很多时，L0和L1可使某些feature的参数为0，L2可使某些feature的参数很小，这样模型就简单了。

四、回归系数的求解

线性回归、ridge回归都可以用梯度下降的方法求解、因为需要最小化的损失函数是连续可导的。（α||ω||²求导后ω还在，α||ω||求导ω没了）

但Lasso用L1，使得损失函数有不可导的点，不能用梯度下降求系数，但可以用以下方法：

坐标轴下降法、前向选择、前向梯度法、最小角回归

有空再更新以上几个方法原理的图解。

四、贝叶斯线性回归

有变量X₁、X₂...Xm,其系数是ω1、ω2...ωm，这些系数未知，一种系数组合表示为Θ，有无数个Θ。

一组X₁、X₂...Xm对应一个结果值y，即一个样本。

n个y值，即一组结果值表示为D。

现在问题转化为，从众多的参数组合θ中，选一种Θ，使已知观察值D发生的条件下，此Θ发生的概率最大。即求P(Θ|D)最大的那个Θ。

P(Θ|D)=P(D|Θ)*P(Θ)/P(D)

对于所有Θ，P(D)都相等，所以只求P(D|Θ)*P(Θ)最大的Θ就好了。

1. P(Θ)要根据先验知识求，即先验概率，可以假设Θ是均匀分布，或者高斯分布。

2. P(D|Θ)是已知了D的分布形式，线性问题中即ω1X1+ω2X2...+ωmXm的分布，分布参数就是Θ，所以可求。