一.基本概念
统计学习的对象是数据
1.统计学习关于数据的基本假设是同类数据具有一定的统计规律性,所以可以用概率统计方法来加以处理(服从XX分布)
2.输入空间,输出空间,特征空间,空间可以是有限元素的集合,也可以是整个欧式空间
欧式空间与非欧式空间的区别:
一条直线L和不在L上的点P,经过P点平行于L的线有几条?
在欧式空间中,这个问题显然是“只有一条”,然而在非欧空间中,这个问题就不一定了。马鞍形的双曲抛物面,就是一个非欧空间的例子。
3.输入与输出称为样本(sample),输入与输出均为连续变量预测称为回归问题,输出变量为有限个离散额预测为分类问题
4.联合概率分布,监督学习假设输入与输出随机变量X,Y遵循联合概率分布P(X,Y),P(X,Y)表示分布函数或分布密度函数。注意:对于学习系统,联合概率分布是未知的,但是训练数据与测试数据仍然是被看作是依联合概率分布P(X,Y)独立同分布,X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设
二.统计学习三要素
1.模型
2.策略:损失函数和风险函数,损失函数数值最小,模型就越好,由于输入输出度遵循联合分布P(X,Y),损失函数的期望是 ,由于联合分布P(X,Y)是未知的所以 不能直接计算。所以才需要学习给出一个平均损失(经验风险) ,根据大数定律,样本容量N趋于无穷大期望风险趋于经验风险。
3.经验风险最小化和结构风险最小化:结构风险最小化是为了防止过拟合而提出的策略:
解决方法:在经验风险最小化加上模型复杂度的正则化项
,J(f)为模型的复杂度,模型f越复杂J(f)越大。
4.泛化能力:模型对未知数据的预测能力称为泛化能力。
5.泛化误差上界:他是样本容量和假设空间的函数,样本容量增大,泛化上界趋于0,假设空间越大,泛化误差上界就越大。
6.精确率定义:P=正类预测正确 / 正类预测为正类+负类预测为正类
7.召回率定义:R=正类预测正确 / 正类预测为正类+正类预测为负类
8.精确率和召回率的调和均值:F1=1/P+1/R=2TP/2TP+FP+FN