作者:离散木木夕
欢迎大家给出宝贵的建议!
线性模型和逻辑回归
一、前言
和以前一样,主要目的还是整理总结自己的思路。同时,初学者也可以看看我的思路,希望可以得到一定的启发。当然希望能给我提出点建议,或者问题,我愿意在学习过程中和大家交流。
二、正题
接下来进入正题,今天我要讲的是,线性模型和逻辑回归。我之所以想写这篇博客,是因为我从视频上学习到之后,觉得这个方式简单易懂,刚好上课分到的任务也是讲这一章,所以查阅了不少资料,准备了一段时间。
首先,我们要学习这门课程,我想,应该先了解一下什么是回归和分类?
分类和回归区别在于输出变量的类型:
(1)定量输出称为回归,或者说是连续变量的预测;
(2)定性输出称为分类,或者说是离散变量预测。
举个例子:
预测明天的气温是多少度,这是一个回归任务。
预测明天是阴、晴还是雨,就是一个分类任务。
综上:
回归问题和分类问题的本质是一样的,不同仅在于他们的输出的取值范围不同。分类问题中,输出离散化;而在回归问题中,输出连续化。
1.线性回归:是一种监督学习下的线性模型
1.1下面结合一个例子来做分析:
我们去银行贷款,至于银行要贷款多少钱给你,要根据每个客户的条件来定。下面就取两个属性:工资和年龄。假设根据银行规定,如下图所示:
让属性工资为x1,属性年龄为x2,因为每个属性占的权重不一样,分别用 来表示,不同的特征乘以不同的权重,组合起来,得到最终的结果。
至于这个公式怎么来的?就是假定了第三个属性x3,且值全为1,与权重 相乘。所以得到下面这个式子。
但是通过机器学习建立模型之后,预测得出来的结果可能与上图给出的额度有出入,预测值可能偏高也可能偏低,但是大部分预测误差不会太离谱,可控范围。所以这就存在一个误差我们假定为
所以就得出下面的公式 ,y(i)为真实值,h(x)为预测值。
误差是独立并且具有相同的分布通常认为服从均值为0方差为 的高斯分布(正态分布)。
高斯分布图:
大部分都集中在中间那部分,只有小部分在两边。
下面根据我自己的理解解析一下这句话:
独立:每个样本都是单独的,独立的,没有联系。我去银行借钱和你去银行借钱没有关系。
相同的分布:指定一个误差范围,认为是高斯分布。
均值为0:
方差:,这个是根据输入来定的,所以我们暂定。
1.2 公式及其推导
下面解析:
意思是找出什么样的值和x(i)组合完之后越接近于y(i)的概率值越大的。
这里
exp为e
P(e^(i))可以看成f(x)
e^(i)可以看成x
是似然函数。
表示累乘。
所以我们就想要求最大,这个式子是累乘的,计算难度很大,我们要化简吧。
这时候我们推出了一个对数似然函数。因为对数里面值的相乘等于相加吧。这样就好算多了。
累乘难计算把它化简:
Loss函数原型:求极值
这里涉及了矩阵求导,可以留言,我可以解析一下。
2.逻辑回归(LR):
2.1 公式及视图
取值区间:
x∈(-∞,+∞)
y∈ [0,1]
大于0.5,属于1这个类别。
小于0.5,属于0这个类别。
2.2 公式求导:
注意:
逻辑回归虽然叫回归,但是实际上是个分类的算法。是最经典的解决二分类问题的算法。从来不用作回归的!