回归的理解

回归的解释:标记是连续的叫回归,不连续的叫分类。

回归用于预测自变量和因变量之间的关系,表示输入变量到输出变量之间映射的函数。回归问题可简单地表述为:选择一条曲线来很好的拟合已知数据,预测未知数据。

例如要预测房价,这时有两个影响房价的特征(标签):面积(x1)和地理位置(x2)。

θ1是面积的参数,θ2是地理位置的参数,拟合函数可以表示为:

                                                                     

 

回归问题按自变量的个数分为一元和多元,自变量和因变量之间关系的类型分为线性和非线性。回归常用的损失函数是SE,因此常用最小二乘法求解。

最小二乘法:

通过最小化误差的平方和寻找数据的最佳函数匹配。简单来说就是:目标函数=∑(观测值-理论值)^2,也就是找到参数、1、2使得目标函数最小。求解方法就是对这三个参数分别求偏导,令偏导数为0,求多元方程组得到最佳参数值。即可算出。

梯度下降法:

                                                       

沿着负梯度方向迭代使得J(\theta )更小。

减小过拟合的方法:将目标函数增加平方和损失:\lambda \sum_{j=1}^{n}\theta _{j}^{2},也就是岭回归。

残差:预测值与实际值差值之差。

岭回归:在原始损失上加上 \lambda \sum\theta ^{2}

LASSO:将\theta ^{2}换成\left | \theta \right |

为什么要验证:因为很多时候\theta =((X^{T}+\lambda I)^{-1})X^{T}Y,现在要求入,而入无法通过训练数据得到,那就先拿那部分数据不用,给定一组 入,求出一组\theta,看哪个在验证上最好,最好的就是合适的 \lambda

猜你喜欢

转载自blog.csdn.net/weixin_38241876/article/details/84856578