5.4 加权最小二乘法
最小二乘法是使
∑i(bi−ariTx)2 最小,这表明每次测量的重要性一样,但实际中有时存在某些测量更重要,某些更不重要。以第一个例子为例说明,假设测量直径,用了两个精度不同的设备各测一次,分别为
dh,dl ,设备的测量精度即方差分别为
σh2,σl2 ,设备精度越高方差越小。如何综合这两个测量结果来获得比仅用高精度设备更好的结果?如果设备精度相同,则结果为
D=(dh+dl)/2 ,即这两个测量权重相同。如果精度不同,则显然精度高的权重要大,权重要与精度成正比,所以测量结果应该为
D=σh2+σl2σl2dh+σh2+σl2σh2dl ,该估计值方差为
σ2(D)=(σh2+σl2σl2)2σh2+(σh2+σl2σh2)2σl2=σh2+σl2σh2σl2 ,此值小于
σh2 ,这说明估计值的精度高于
dh 。
假设每次测量精度不同,方差为
σi2 ,则此时应该使
∑iσi21(bi−ariTx)2 最小,即精度高的测量权重要大。根据前面结果知
∑i(bi−ariTx)2=(b−Ax)T(b−Ax) 即向量
b−Ax 的内积,也就是向量
b 到子空间
colA 的距离平方。现在要求加权距离平方的最小值,加权距离平方可以通过矩阵获得!令对角阵为:
D=diag(σ121,σ221,⋯,σn21) ,
F=diag(σ11,σ21,⋯,σn1) ,则
D=FTF
i∑σi21(bi−ariTx)2=(b−Ax)TD(b−Ax)=(b−Ax)TFTF(b−Ax)=(Fb−(FA)x)T(Fb−(FA)x)
令
b′=Fb ,
A′=FA ,则上式为
(b′−A′x)T(b′−A′x) ,要最小,则近似解为
x^=(A′TA′)−1A′Tb′=((FA)TFA)−1(FA)TFb=(ATFTFA)−1ATFTFb=(ATDA)−1ATDb
这就是加权最小二乘法的解!
我们还可以进行推广,上式是
(b−Ax)TD(b−Ax) 最小解,其中
D 是对角阵,其实对称阵
S 也可以。只要对称阵满足对任意非零向量
x ,有
xTSx>0 成立,
xTSx 称为广义距离,即保证广义距离非负,此时对称阵
S 称为正定矩阵。
定义 正定矩阵 对称阵
S 对应的广义距离
xTSx 非负,称对称阵为正定矩阵。
根据对称阵的
LD 分解,有
S=LDLT=LFFTLT=LF(LF)T ,令
F′=(LF)T ,则
S=F′TF′ ,与对角阵
D=FTF 分解一致,所以最优解为
x^=(ATSA)−1ATSb
如何确定对角阵或对称阵元素的值,这是一个困难的问题。有时可以根据先验知识来人为指定对角阵元素值,比如根据测量精度。但指定对称阵元素的值十分困难,在机器学习中,这称为度量学习。