推荐的方法:
1. 开始一个简单的算法,然后快速实现,在交叉验证集上进行验证
2. 画出学习曲线,尝试不同的方案
3. 误差分析,手动检查算法错误的例子,看看是否存在系统性错误
最好有一种数值化评估算法的方法,以便分析算法的优劣
偏斜类:数据中一个类别的量远比另一个的多,会导致学习器直接全部猜测为数据量大的类
True Positive:预测为正实际为正
True Negative:预测为负实际为负
False Positive:预测为正实际为负
False Negative:预测为负实际为正
precision=TruePositivePredictedPositive
=TruePositiveTruePositive+FalsePositive
recall=TruePositiveActualPositive
=TruePositiveTruePositive+FalseNegative
在分类问题中,临界值可以影响准确率和召回率,高准确率,低召回率,或者低准确率高召回率
评估算法的时候,准确率和召回率的平均值并不好,可以使用调和平均值
F1=2PRP+R