基本形式
一般向量形式:
f(x)=ωT∗x+b
优点:
- 非线性模型可由线性模型通过引入层级结构和高维映射得到
- 具有很好的解释性(哪一个参数更为重要)
线性回归
根据给定数据集,是给定一个线性模型尽可能准确的预测实值的输出标记
最小化均方误差的模型求解方法即为最小二乘法
(ω∗,b∗)=(ω,b)argmini=1∑m(yi−ω∗xi−b)
上式中样本
xi 由多个属性描述,称为多元线性回归
广义线性模型
y=g−1(ωTx+b)
g() 为单调可微函数,当对应输出不为线性变化时引入
g()。比如输出在指数尺度上变化时,引入对数,则输出就可近似为线性
对数几率回归
寻找一个单调可谓的函数将分类任务的真实标记
y 与线性回归函数的预测值联系起来,拿2分类任务为例,简单的方法是选择单位阶阶跃函数,但是该函数并不连续,因此选择类似的对数几率函数
f(x)=1+e−(ωx+b)1
对数几率函数是任意阶可导的凸函数
由对数几率函数确定
ω 和
b
对数几率函数可变化为
ln1−yy=ωTx+b
令
y=p(y=1∣x),则
1−y=p(y=0∣x)
所以
p(y=1∣x)=1+eωTx+beωTx+bp(y=0∣x)=1+eωTx+b1
然后通过最大似然法估计参数,根据给定模型,对数回归模型最大化‘对数似然’
l(ω,b)=i=1∑mlnp(yi∣x;ω,b)
即使得m个样本的预测为真是标记的概率最大
为了表示方便,可以将概率
p 表示为
p(yi∣xi;ω,b)=yip1(x,ω,b)+(1−yi)p0(x,ω,b)
p1表示预测为1的概率,
p2表示为预测为0的概率,则
p1=1−p0
所以原式可表示为
p(yi∣xi;ω,b)=yip(x,ω,b)+(1−yi)(1−p(x,ω,b)
线性判别分析 (LDA)
思想
给定训练样集,设法将样例投影到一条直线上,使得同类样例尽量接近,异样样例尽量远离
求解
设投影直线的方向为
ω,
Xi,μi,Σi 表示第
i 个样本集合,均值向量和协方差矩阵。均值向量的投影为
ωTμi,协方差矩阵的投影为
μiTΣiμi
使同类的投影尽可能近即使协方差矩阵的投影尽可能的小,使不同类的投影尽可能的远即使均值的投影距离尽可能大
J=ωTΣ0ω+ωTΣ1ω∣∣ωTμ0−ωTμ1∣∣22=ωT(Σ0+Σ1)ωωT(μ0−μ1)(μ0−μ1)Tω
令
Sω=Σ0+Σ1为类内散度矩阵,
Sb=(μ0−μ1)(μ0−μ1)T为类间散度矩阵,
Sω,Sb 为广义瑞丽商(generalized Rayleigh quotient)
多分类任务
设有
N 个类,第
i 个类的示例数为
mi,定义全局散度矩阵
St=i=1∑m((xi−μ)(xi−μ)T
μ 为所有示例的均值
类内散度矩阵
Sω 为每个类别的散度矩阵之和,即
Sω=∑i=1mSωi,其中
Sωi=∑j=1mi((xj−μi)(xj−μi)T
Sb=St−Sω=i=1∑Nmi(μi−μ)(μi−μ)T
多分类的LDA有多种实现方法,选择
Sω,St,Sb 任意两个都可。
W 是一个投影矩阵,将多分类问题投影到
d′ 维空间,
d′≪d,可用于降维。
多分类问题
多分类问题的基本思路是拆解法,将多分类任务柴蔚若干个二分类任务
一对一(OvO): 将N个类别两两配对,形成
N(N−1)/2 个分类任务,最终预测结果根据分类结果中数目最多的类别判断
一对多(OvR): 将一个类别视为正,其余所有均视为负。若只有一个类别为真,那么该类为预测结果;若多个类别都判断为真,根据每个判断结果的置信度预测最终结果。
多对多(MvM):
对
N 个数据集进行
M 次分类,每次将一部分作为正数据集,一部分作为负数据集,于是可以训练
M 个分类器。最常用的为“纠错输出ma