回归:模拟观测值,如何随着特征值的变化而变化。比如房价预测的案例中,我们的观测值是房价,特征值是房间数,房子地理位置,房龄等。
回归可用来:预测(比如房价预测)、分类(比如垃圾邮件分类)、分析特征的重要性
我们通过“房价预测的案例”引出我们要学习的回归算法。
一、线性模型回归
1、首先看看房价走势,画一下过去两年,房价根据房屋面积的走势图
2、只靠跟自己房子面积差不多的房价预测不靠谱
3、线性回归:房价和房屋面积
直线拟合方法:残差平方和
得到直线后,进行我的房价预测:
4、当然也可能是非线性关系:二次
5、又或者13次?--过拟合
二、模型评估
1、可以将数据集分成训练集和测试集,这样通过训练集训练好模型后,用真实的测试集先测试一下正确率
2、训练误差和测试误差
训练误差:
测试误差:
3、训练误差、测试误差在不同拟合函数时的变化曲线
4、增加更多特征
面积、卫生间数量、卧室数量、院子大小、建筑年限等。
5、回归的其他应用
薪资预测、股票预测、博文的最终转发量
三、回归总结
1、房价预测回归流程
2、测试试题总结:
(1)训练误差最小的模型,并不定是最优模型,可能存在过拟合。
(2)并不是使用的特征越多,模型就越好。