统计学习方法笔记(三)

1.7生成模型与判别模型

监督学习的任务就是学习一个模型，应用这一模型，对给定的输入，预测相应的输出。这个模型一般形式为决策函数：

$Y=f(X)$

或者条件概率分布：

$P(Y|X)$

监督学习方法又可以分为生成方法和判别方法，所学的模型分被称为生成模型和判别模型。

生成方法由数据学习联合分布律P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型，即生成模型：

$P(Y|X)=\frac{P(X,Y)}{P(X)}$

在监督学习中，当输出变量Y取有限个离散值是，预测问题便成为分类问题。这时，输入变量X可以是离散的，也可以是连续的。监督学习从数据中学习一个分类模型或一个分类决策函数，称为分类器。对新的输入进行预测称为分类。

标注问题是分类问题的一个推广，是更复杂的的结构预测问题的简单形式，标注问题的输入是一个观察序列，输出是一个标记序列。标注问题的目标在于学习一个模型，使它能够对观察序列给出标记序列作为序列。

标注问题分为学习和标注两个过程。首先给定一个训练数据集：

$T={(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(N)},y^{(N)})}$

输入序列：

$x^{(i)}=(x_1^{(i)},x_2^{(i)},...,x_n^{(i)})^T$

输出序列：

$y^{(i)}=(y_1^{(i)},y_2^{(i)},...,y_n^{(i)})^T$

$i=1,2,...,N$

n是序列的长度

学习系统基于训练数据集构建一个模型，表示为条件概率分布:

$P(Y_1,Y_2,Y,...,Y_n|X_1,X_2,...,X_n)$

标注系统按照学习得到的条件概率分布模型，对新的输入观测序列找到相应的输出的标记序列。

回归用于预测输入变量和输出变量之间的关系。回归模型是表示从输入变量输出变量之间的映射。回归问题等价于函数拟合，选择一条函数曲线使其很好的预测未知数据。