回归的理解

回归的解释：标记是连续的叫回归，不连续的叫分类。

回归用于预测自变量和因变量之间的关系，表示输入变量到输出变量之间映射的函数。回归问题可简单地表述为：选择一条曲线来很好的拟合已知数据，预测未知数据。

例如要预测房价，这时有两个影响房价的特征（标签）：面积（x1）和地理位置（x2）。

θ1是面积的参数，θ2是地理位置的参数，拟合函数可以表示为：

回归问题按自变量的个数分为一元和多元，自变量和因变量之间关系的类型分为线性和非线性。回归常用的损失函数是SE，因此常用最小二乘法求解。

最小二乘法：

通过最小化误差的平方和寻找数据的最佳函数匹配。简单来说就是：目标函数=∑（观测值-理论值）^2，也就是找到参数、1、2使得目标函数最小。求解方法就是对这三个参数分别求偏导，令偏导数为0，求多元方程组得到最佳参数值。即可算出。

梯度下降法：

沿着负梯度方向迭代使得 $J(\theta )$ 更小。

减小过拟合的方法：将目标函数增加平方和损失： $\lambda \sum_{j=1}^{n}\theta _{j}^{2}$ ，也就是岭回归。

残差：预测值与实际值差值之差。

岭回归：在原始损失上加上 $\lambda \sum\theta ^{2}$

LASSO:将 $\theta ^{2}$ 换成 $\left | \theta \right |$

为什么要验证：因为很多时候 $\theta =((X^{T}+\lambda I)^{-1})X^{T}Y$ ，现在要求入，而入无法通过训练数据得到，那就先拿那部分数据不用，给定一组入，求出一组 $\theta$ ，看哪个在验证上最好，最好的就是合适的 $\lambda$ 。