在复习概率论时突然发现这一条,想到以后自己应该会用上,所以在这里记录下。这里是利用g(X) 的线性表达式近似表达f(Y),或许以后更多的是用g(X)的非线性表达式表达f(Y)吧,那么有时间也写写泰勒表达式吧。
首先用e表示这种关系的近似程度,在概率论中我们可以使用方差来表示。
e = E{ (Y – (a+bX))^2} =E(Y^2) + b^2*E(X^2) +a^2 -2b*E(X,Y) + 2ab*E(X)-2a*E(Y) ①
( 利用方差的性质化简得来的,下面大部分化简借助方差D(X)与期望E(X)的性质 )
明显可知e越小,a+bX与Y的近似程度就越高,那么将e对a、b求偏导数,并令它们为0(我们假设二者高度相关,e=0),得:
解得:
b = Cov(X,Y)/D(X)
a=E(Y)-b*E(X)=E(Y)-E(X)*Cov(X,Y)/D(X)
Cov(X,Y)= X,Y的协方差 = E{[X-E(X)][Y-E(Y)]}
将a与b代入①式可得:
MinE{[Y-(a+bX)]^2} =(1-Pxy^2)D(Y)
Pxy表示为X与Y的相关程度,在概率论中称为相关系数。
E()与D()都>=0,所以|Pxy|<=1,所以当|Pxy|较大时,X,Y联系密切,我们的a+b*g(x)与f(Y)近似度高,相反则近似度低,当Pxy=0时,
X,Y无联系,近似度为0.
资料摘自概率论与数理统计第四版。