昨天白天写了一天的分类评价准则,感觉又在赶作业。晚上看了一点线性回归的东西。基于不同阈值下的混淆矩阵我们可以得到多个评价准则。
抄作业:
ROC是TPR和FPR的随阈值变化得到的曲线。阈值越小,TPR和FPR越大,阈值越大,TPR和FPR越小。如果在阈值大的时候,FPR很小,但TPR很大,这表示分类正确,没有把正常人预测成病人,而把病人都预测对了。当随机预测时,TPR和FPR是一条y=x的曲线,ROC越向正Y轴偏移,离baseline越远,这个模型也越好,这时ROC曲线下的面积AUC越大。
Lift表示的是precision/pi1,既使用该模型顾客的回复率与不使用该模型顾客的回复率的比值。Lift chart是lift与depth随阈值不同的曲线,depth是预测为正例占总体的比率。其实这条曲线表示的是将预测score自大到小排列,令前10%为正例,既给评分为前10%的人发传单,比值为4。 令前20%为正例,既给评分为前20%的人发传单,比值为3。随着阈值减小,precision会减少,lift会下降。
Gain= PV+=precision=lift*pi1. 与lift相同,只是值不同。
KS曲线是 KS= TPR -FPR在不同阈值下的点组成的曲线。KS最大的点代表在这个阈值下,可以较少概率的把正常人预测成病人,较大概率的把病人都预测对了。
decile,评分从低到高排列,按照分数分为n等分,每一等分的均值为该decile的decile_score.
score VS event_score: score = decile_score. event_score是每一decile的实际值的均值。如果event_score 与 decile_score比较接近,代表模型比较好,否则代表模型比较差。
线性回归波波老师只讲了简单线性回归,既只有一个特征的回归。线性回归假设数据服从线性回归,找到一条直线拟合数据,通过学习参数使没有拟合到的部分最小(损失函数)。这也是所有参数学习模型的套路,只是模型不同,损失函数不同,参数的最优化方法不同而已。多元回归、逻辑回归。SVM都只是线性回归的一种变形。
线性回归使用最小二乘法对线性方程中的a和b寻优。
简单线性回归损失函数:
要是J 最小, 则对a,b,求导,令导数等于零,求最小值。
其中为x,y的平均值