机器学习(三)线性回归模型、广义线性回归模型、非线性回归模型
线性回归(数据集要满足正态分布)
一元线性回归模型:
在这里会想到,如何确定方程中的系数呢?我们先来了解最小二乘法,简单来说就是这个点作y轴的平行线与直线相交,那一段y值的平方求和起来最小就是了
那我们怎么求呢?在这之前大家先要了解一些偏导数的知识
为了方便大家理解,举一个通俗易懂的例子
多元线性回归模型
也就是一元线性回归是一个因素的,多元的话有多个因素建模,当考虑的因素为2个的话,还可以用三维坐标查看,因素多的话就不太好画出来了
使用的方法还是最小二乘法,还是偏导数,不过不像一元线性回归那样是二元一次方程组了,变为m+1元一次方程组
虚拟变量
在我们多元线性回归模型的时候,可能会遇到非连续性的变量,这下我们该怎么办??
比如,性别男和女,不可能就用0,1来直接扔进去模拟(简单来说就是分情况,针对不同情况模拟当然模拟效果就会好一点)
介绍一下哑变量(虚拟变量):
为了简便,现在模型的维度就有因变量销售额,自变量性别,单价
- 相加模型(只影响截距项)
把性别的男女,新增两个变量
性别,单价---->单价(h),isman,iswoman
y=a+bh+c*isman+d*iswoman
只影响截距的意思,分多种情况拟合出来的,得出来的不同情况模型永远是平行的
- 乘法模型(只影响斜率)
性别,单价---->单价(h),isman*单价,iswoman*单价
y=a+c*isman*h+d*iswoman*h
- 混合模型(都影响)
性别,单价---->单价(h),isman*单价,iswoman*单价,isman,iswoman
y=a+c*isman*h+d*iswoman*h+e*isman+f*iswoman
线性回归会遇到以下的问题
- 对于多元线性回归如何选取变量?
逐步回归(这种方法不是很好,Lasso会比较好)
里面的指标指的是什么指标呢?
怎么评价我们模拟的模型好不好呢?需要回归诊断
样本是否符合正态分布假设?
R语言里面有专门的函数
是否存在离群值导致模型产生较大误差?
作图观察剔除
线性模型是否合理?误差是否满足独立性、等方差、正态分布等假设条件?
是否存在多重共线性?
广义线性回归模型
常见的广义线性回归
逻辑回归
上面的例题利用逻辑回归我们算得
非线性回归模型
- 对数法
- 指数法
- 幂函数法
- 多项式回归模型