leboop文章,禁止转载!
本文所有符号约定参见机器学习之矩阵微积分及其性质。
假设我们获得了个数据,每一个数据由个特征和一个真实值构成,如下:
feature_1 | feature_2 | feature_n | value | ||
1 | ... | ||||
2 | ... | ||||
. . . |
. . . |
. . . |
. . . |
. . . |
|
m | ... |
任意给定一组由个特征构成的数据,如何预测?线性回归就是寻找一个由个特征构成的最优线性组合,数学表述如下:
如果我们已经求出了上式中的每个系数,那么对于获得的每个数据,都有一个对应的预测值。直觉告诉我们,使每个预测值和真实值非常接近的系数将是我们需要的。所谓预测值和真实值的接近程度可以使用他们间的距离来度量,比如我们最熟悉的,那么对于表中个数据,应该使用距离之和来度量,也就是
,
那么使取最小值的系数就是我们需要的。但是求解的最小值,需要对每个分量求偏导数,而绝对值求导不太方便。所以,我们使用另外一种更方便求偏导的距离度量方式,如下:
,
为了方便求解系数,下面我们使用矩阵形式来表述。先做一些记号,
记个数据矩阵:
,
真实值:
,
预测值:
,
系数:
则可如下表示:
这里表示向量的2-范数,例如表示向量
的2-范数,它如下定义:
,
从定义我们能得到的另一种表达方式:
注意到,我们有
所以和是等价的。优化问题转化为求解,
而
根据机器学习之矩阵微积分及其性质,我们有:
令,则
当是非奇异矩阵,即,则
有一点需要提醒的是:
的第一列全部是1,有时候是经过中心化的,如:
那么此时
,但是结果是一样的,也就是