回归的解释:标记是连续的叫回归,不连续的叫分类。
回归用于预测自变量和因变量之间的关系,表示输入变量到输出变量之间映射的函数。回归问题可简单地表述为:选择一条曲线来很好的拟合已知数据,预测未知数据。
例如要预测房价,这时有两个影响房价的特征(标签):面积(x1)和地理位置(x2)。
θ1是面积的参数,θ2是地理位置的参数,拟合函数可以表示为:
回归问题按自变量的个数分为一元和多元,自变量和因变量之间关系的类型分为线性和非线性。回归常用的损失函数是SE,因此常用最小二乘法求解。
最小二乘法:
通过最小化误差的平方和寻找数据的最佳函数匹配。简单来说就是:目标函数=∑(观测值-理论值)^2,也就是找到参数、1、2使得目标函数最小。求解方法就是对这三个参数分别求偏导,令偏导数为0,求多元方程组得到最佳参数值。即可算出。
梯度下降法:
沿着负梯度方向迭代使得更小。
减小过拟合的方法:将目标函数增加平方和损失:,也就是岭回归。
残差:预测值与实际值差值之差。
岭回归:在原始损失上加上
LASSO:将换成
为什么要验证:因为很多时候,现在要求入,而入无法通过训练数据得到,那就先拿那部分数据不用,给定一组 入,求出一组,看哪个在验证上最好,最好的就是合适的 。