半监督学习的用处

一个直观的例子，假设蓝色点代表“猫”，橙色点代表“狗”，灰色点代表未知标签的点，尽管灰色点的标签未知，但是也能帮助我们构建模型。

Semi-supervised Learning for Generative Model

监督学习中的概率生成模型（Supervised Generative Model）

在监督学习中，可以之间计算样本中的类别比率、先验分布，从而计算出后验概率。

半监督学习中的概率生成模型（Semi-supervised Generative Model）

假设绿色为未知标签的数据，蓝色、橘色各表示一类，此时由已知标签的样本数据估计出来的 $u^1,u^2,\Sigma$ 显然是不合理的，以已知标签样本计算 $P(C_1)>P(C_2)$ ，而如果考虑未知标签的样本数据则有可能 $P(C_1)<P(C_2)$ ，因此半监督学习中的概率生成模型要比监督学习中的概率生成模型要复杂得多。

半监督学习中的概率生成模型算法

初始化 $\theta := P(C_1),P(C_2),u^1,u^2,\Sigma$
根据 $\theta$ 的条件计算出给定一个未知标签数据属于 $C_1$ 类的概率 $P(C_1|x^u)$
按照下图蓝色框部分公式更新 $P(C_1),u^1$
返回第2步直到收敛

算法可以得到收敛解，但是初始值不同可能导致得到的是局部最优解。

半监督学习中的概率生成模型算法解释

如果在监督学习中，训练数据都是已标记的数据，则算法的目的就是极大化最大似然函数；但是在半监督学习中，还有一部分没有标记的数据，对这些未标记的数据的 $P_{\theta}(x^u)$ 使用全概率公式计算得出，对这样的极大似然函数求解最大值的过程即上述的步骤。

Low-density Separation Assumption

现在给定一个假设，不同lable之间存在着明显的差别。

Self-training

Self-training是Low-density Separation最简单的代表，如图，现在有R个已标记的样本，U个未标记的样本

使用R个已标记的样本利用监督学习的算法训练出最优的模型 $f^*$
使用模型 $f^*$ 对U个已标记的样本进行标记
从这U个样本中（已经带有了预测的标记）挑出一部分加入R个已标记的样本
重复1到3直到收敛（此时的已标记的样本包含R个已标记的样本和从第3步挑选出的样本）

这一算法在回归上没有用处

很类似上述的半监督学习中的概率生成模型算法，区别在于这一算法使用的是hard label（要么是1要么是0），而后者则使用的是soft label（样本属于每个label的概率）

Entropy-based Regularization

Entropy-based Regularization 是Self-training的进阶版本，估计 $x^u$ 此时不是直接得到label而是得到关于label的分布（假设分布很集中，否则不符合Low-density 的假设），此时就是求解 $L$ 的极小值。

Outlook: Semi-supervised SVM

如图，蓝色、橘色为已标记的两类样本，灰色为未标记样本，此时Semi-supervised SVM会穷举所有的可能（ $2^4$ 种），对每一种可能都算一个SVM模型，选取margin最大且误差最小的模型。

Smoothness Assumption

现在给定一个假设，相似的 $x$ 的 $y$ 也相似，更准确地表述是， $x^1$ 和 $x^2$ 在密度高的地方相近，则 $y^1$ 和 $y^2$ 更相似（ $x^1$ 和 $x^2$ 可以用high density path做连接）。如图，尽管 $x^3$ 和 $x^2$ 在图形上比较相近，但是考虑密度分布之后 $x^1$ 和 $x^2$ 更接近。