一些用于回归模型的评价指标

Mean dependent var

因变量的样本均值: 目的是为了度量因变量的集中度

E(y)=(y1+y2+,...,+yn)/n

S.D dependent var

因变量的样本标准差: 目的是为了度量因变量的离散度

这里不好编辑公式，省略...

sum squared redis

残差平方和：很多最优化的方法都怡残差平方最小和作为目标函数。越小说明效果越好。

SSR=(e1^2+e2^2+...)

残差平方和会随着回归方程右边变量的增加而减少。

S.E regression

回归标准差：显然是越小越好

其中, T表示样本的个数，k表示回归方程右式的变量的个数，包括常数项。

log likelihood

和残差一样，可以作为最大似然估计的目标函数，越大越好。

F statistic

检验回归方程的显著性：自变量和因变量的线性关系是否密切。给定显著水平a, 根据自由度(k,n-k-1)查F分布表，

若F>Fa,则显著，否则不显著。以上说的密切关系指的是所有自变量的联合。也就是说至少有一个变量有关，则显著。

F统计量实际上就是检验当删除所有因变量的时候，残差平方和会增加。

其中, n表示样本的个数，k表示回归方程右式的变量的个数，包括常数项。

Prob(F-Statistic)

F检验对应的概率，越小越好。

T statistic

判断回归模型右边每个属性是否与因变量关系密切。

同样T>Ta则拒绝原假设。否则该变量可以剔除。

Prob(T-Statistic)

T检验对应的概率，越小越好。

R-squared

R方的取值范围位于[0,1]之间：目的是描述预测y的程度，显然是越大越好，但是也不能因为大就完全认为回归效果好，

还要结合其他的参数，因为R方的值可能因为其他非回归预测效果好的原因导致值变大。

其中，分子是残差平方和，分母约等于样本方差。

Adjusted R-squared

目的是为了克服上面所说的因为其他的原因(变量个数增大)导致R方的递增。

其中，k是回归方程右边变量的个数，包括常数项。所以调整后的R方比R方更可靠。

Durbin-waston stat

DW统计量，用于检测误差是否序列相关，如果相关，可以通过预测误差，改进回归模型的效果。

值一般在[0, 4]之间，越接近2，说明不含自相关。

AIC

AIC准则用于预测模型的选择，越小越好

其中, T表示样本的个数，k表示回归方程右式的变量的个数，包括常数项。

SIC

和AIC一样，用于预测模型的选择，同样是越小越好

其中, T表示样本的个数，k表示回归方程右式的变量的个数，包括常数项。

reference

http://wiki.mbalib.com/wiki/%E5%A4%9A%E5%85%83%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E5%88%86%E6%9E%90%E9%A2%84%E6%B5%8B%E6%B3%95

http://books.google.com.hk/books?id=ItjdbUQ3hCYC&pg=PA20&lpg=PA20&dq=%E5%9B%9E%E5%BD%92%E6%A0%87%E5%87%86%E5%B7%AE&source=bl&ots=g-N_02ZW9w&sig=WxyBj1H5ZuCtK5Cbt38-8cFk9K4&hl=zh-CN&ei=0MjdTvL5Ks_wrQfx4uCFCQ&sa=X&oi=book_result&ct=result&resnum=8&ved=0CF0Q6AEwBzgU#v=onepage&q=%E5%9B%9E%E5%BD%92%E6%A0%87%E5%87%86%E5%B7%AE&f=false