Mean dependent var
因变量的样本均值: 目的是为了度量因变量的集中度
E(y)=(y1+y2+,...,+yn)/n
S.D dependent var
因变量的样本标准差: 目的是为了度量因变量的离散度
这里不好编辑公式,省略...
sum squared redis
残差平方和:很多最优化的方法都怡残差平方最小和作为目标函数。越小说明效果越好。
SSR=(e1^2+e2^2+...)
残差平方和会随着回归方程右边变量的增加而减少。
S.E regression
回归标准差:显然是越小越好
其中, T表示样本的个数,k表示回归方程右式的变量的个数,包括常数项。
log likelihood
和残差一样,可以作为最大似然估计的目标函数,越大越好。
F statistic
检验回归方程的显著性:自变量和因变量的线性关系是否密切。给定显著水平a, 根据自由度(k,n-k-1)查F分布表,
若F>Fa,则显著,否则不显著。以上说的密切关系指的是所有自变量的联合。也就是说至少有一个变量有关,则显著。
F统计量实际上就是检验当删除所有因变量的时候,残差平方和会增加。
其中, n表示样本的个数,k表示回归方程右式的变量的个数,包括常数项。
Prob(F-Statistic)
F检验对应的概率,越小越好。
T statistic
判断回归模型右边每个属性是否与因变量关系密切。
同样T>Ta则拒绝原假设。否则该变量可以剔除。
Prob(T-Statistic)
T检验对应的概率,越小越好。
R-squared
R方的取值范围位于[0,1]之间:目的是描述预测y的程度,显然是越大越好,但是也不能因为大就完全认为回归效果好,
还要结合其他的参数,因为R方的值可能因为其他非回归预测效果好的原因导致值变大。
其中,分子是残差平方和,分母约等于样本方差。
Adjusted R-squared
目的是为了克服上面所说的因为其他的原因(变量个数增大)导致R方的递增。
其中,k是回归方程右边变量的个数 ,包括常数项。所以调整后的R方比R方更可靠。
Durbin-waston stat
DW统计量,用于检测误差是否序列相关,如果相关,可以通过预测误差,改进回归模型的效果。
值一般在[0, 4]之间,越接近2,说明不含自相关。
AIC
AIC准则用于预测模型的选择,越小越好
其中, T表示样本的个数,k表示回归方程右式的变量的个数,包括常数项。
SIC
和AIC一样,用于预测模型的选择,同样是越小越好
其中, T表示样本的个数,k表示回归方程右式的变量的个数,包括常数项。
reference