机器学习笔记(0)-统计学习方法与感知机

统计学习

监督学习

这里写图片描述
监督学习的模型可以是概率模型或非概率模型，由条件概率分布P(Y|X)或决策函数Y=f(X)表示，随具体学习方法而定。

损失函数

经验风险与结构风险

训练误差和测试误差与模型复杂度的关系
这里写图片描述
正则化与交叉验证
正则化项可以是参数向量的L2范数：

正则化项也可以是参数向量的L1范数：

模型选择的一种方法是交叉验证，使用交叉验证的前提是数据不充足，常见的有简单交叉验证、S折交叉验证和留一交叉验证。如果数据充足，选择模型的一种简单方法是随机的将数据集分成三部分，分别为训练集、验证集和测试集，训练集用来训练模型，验证集用于模型的选择，而测试集用于最终对学习方法的评估。如果数据不充足，可以采用交叉验证的方法来选择模型。
生成模型与判别模型
判别模型：该模型主要对p(y|x)建模，通过x来预测y。在建模的过程中不需要关注联合概率分布。只关心如何优化p(y|x)使得数据可分。通常，判别式模型在分类任务中的表现要好于生成式模型。但判别模型建模过程中通常为有监督的，而且难以被扩展成无监督的。比如（Logistic回归，线性判别分析，支持向量机，条件随机场，线性回归，神经网络）
神经网络）
生成模型：该模型对观察序列的联合概率分布p(x,y)建模，在获取联合概率分布之后，可以通过贝叶斯公式得到条件概率分布。生成式模型所带的信息要比判别式模型更丰富。除此之外，生成式模型较为容易的实现增量学习。比如（高斯混合模型，朴素贝叶斯）

感知机

感知机学习旨在求出将训练数据集进行线性划分的分类超平面，为此，导入了基于误分类的损失函数，然后利用梯度下降法对损失函数进行极小化，从而求出感知机模型。感知机模型是神经网络和支持向量机的基础。
感知机模型
f(x)= sign(w*x+b)
其中，x为输入向量，sign为符号函数，括号里面大于等于0，则其值为1，括号里面小于0，则其值为-1。w为权值向量，b为偏置。求感知机模型即求模型参数w和b。感知机预测，即通过学习得到的感知机模型，对于新的输入实例给出其对应的输出类别1或者-1。
感知机策略
假设训练数据集是线性可分的，感知机学习的目标就是求得一个能够将训练数据集中正负实例完全分开的分类超平面，为了找到分类超平面，即确定感知机模型中的参数w和b，需要定义一个损失函数并通过将损失函数最小化来求w和b。这里选择的损失函数是误分类点到分类超平面S的总距离。输入空间中任一点x0到超平面S的距离为：
这里写图片描述
其次，对于误分类点来说，当-yi (wxi + b)>0时，yi=-1，当-yi(wxi + b)<0时，yi=+1。所以对误分类点（xi, yi）满足：-yi (wxi +b) > 0
所以误分类点（xi, yi）到分类超平面S的距离是：

感知机算法

极小化损失函数的过程的过程不是一次使M中所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。
这里写图片描述

感知机学习算法的对偶形式

这里写图片描述
感知机学习算法的对偶形式