统计学习及监督学习概论（4）

《统计学习方法》（第二版）1.6 ~ 1.8

1.6 泛化能力

用学到的模型\(\hat f\)对未知数据预测的误差即为泛化误差（generalization error）。

泛化误差反映了学习方法的泛化能力。事实上，泛化误差就是所学习到的模型的期望风险。

泛化误差上界（generalization error bound）

性质：

是样本容量的函数，当样本容量增加时，泛化上界趋于0；
是假设空间容量的函数，假设空间容量越大，模型就越难学，泛化误差上界就越大。

二类分类问题的泛化误差上界

期望风险\(R(f) = E[L(Y, f(X))]\)

经验风险\(\hat R(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))\)

经验风险最小化函数\(f_N=\arg \min_{f \in F} \hat R(f)\)

\(\arg \min f(x)\)是指使得函数\(f(x)\)取得\(\min\)时所有自变量\(x\)的集合

\(f_N\)的泛化能力\(R(f_N)=E[L(Y, f_N(X))]\)

定理对二类分类问题，当假设空间是有限个函数的集合\(F=\{f_1,f_2,\cdots,f_d\}\)时，对任意一个函数\(f \in F\)，至少以概率\(1-\delta，0 \lt \delta \lt 1\)，以下不等式成立：
\[ R(f) \le \hat R(f)+\epsilon(d,N,\delta) \]
其中，
\[ \epsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(logd+log\frac{1}{\delta}} \]
第1项是训练误差，第2项时N的单调递减函数，也是\(\sqrt{logd}\)阶的函数。

1.7 生成模型与判别模型

\[ 监督学习方法 \left\{ \begin{aligned} 生成方法 && → && 生成模型\\ 判别方法 && → && 判别模型\\ \end{aligned} \right. \]

生成方法

模型表示了给定输入X产生输出Y的生成关系。

生成方法可以还原出联合概率分布P(X,Y)，而判别方法则不能；

生成方法的学习收敛速度更快，即当样本容量增加的时候，学到的模型可以更快地收敛于真实模型；

当存在隐变量时，仍可以用生成方法学习，此时判别方法就不能用。

e.g.朴素贝叶斯法和隐马尔可夫模型

判别方法

由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测模型，即判别模型。

判别方法直接学习的是条件概率P(Y|X)或决策函数f(X)，直接面对预测，往往学习的准确率更高；

由于直接学习P(Y|X)或f(X)，可以对数据进行各种程度上的抽象、定义特征并使用特征，因此可以简化学习问题。

e.g.k近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场

1.8 监督学习应用

1.8.1 分类

在监督学习中，当输出变量Y取有限个离散值时，预测问题便成为分类问题。

e.g.二分问题

TP：将正类预测为正类数

FN：将正类预测为负类数

FP：将负类预测为正类数

TN：将负类预测为负类数

评价指标：
\[ 精确率：P=\frac{TP}{TP+FP} \]

\[ 召回率：R=\frac{TP}{TP+FN} \]

\[ 精确率和召回率的调和均值：\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}\\ F_1=\frac{2TP}{2TP+FP+FN} \]

e.g.k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow

1.8.2 标注

标注问题的输入是一个观测序列，输出是一个标记序列或状态序列。

example：对一个单词序列预测其对应的词性标记序列。

e.g.隐马尔可夫模型、条件随机场

1.8.3 回归

回归模型表示从输入变量到输出变量之间映射的函数。

example：股价预测