1.SVM(support vector machine):
支持向量机。SVM是一个面向数据的分类算法。目标是为确定一个分类超平面,从而将不同的数据分隔开。
2.向量的范数
向量的1-范数:各个元素的绝对值之和。
向量的2-范数:每个元素的平方和再开平方根;
向量的无穷范数:
- 正无穷范数:向量的所有元素的绝对值中最大值。
- 负无穷范数:向量的所有元素的绝对值的最小值
3.矩阵的范数
L1范数: 为x向量各个元素绝对值之和。
L2范数: 为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或Frobenius范数
Lp范数: 为x向量各个元素绝对值p次方和的1/p次方.
1.矩阵的1范数(列模):矩阵的每一列上的元素绝对值先求和,再从中取个最大的(列和最大)
2.矩阵的2-范数(谱模)
3.矩阵的无穷范数(行模):矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最大)
4.矩阵的L0范数:矩阵的非0元素的个数,通常用它来表示稀疏,L0范数越小0元素越多,也就越稀疏。
4.L1和L2正则先验分别服从什么分布
L1是拉普拉斯分布
L2是高斯分布
5.监督学习和无监督学习
监督学习:对具有标记的样本进行学习,以尽可能对训练样本集外的数据进行分类预测。
无监督学习:对未标记的样本进行训练学习,比发现这些样本中的结构知识。
6.正则化
正则化是针对过拟合而提出的,以为在求解模型最优的是一般优化最小的经验风险,现在在该经验风险上加入模型复杂度这一项(正则化项是模型参数向量的范数),并使用一个rate比率来权衡模型复杂度与以往经验风险的权重,如果模型复杂度越高,结构化的经验风险会越大,现在的目标就变为了结构经验风险的最优化,可以防止模型训练过度复杂,有效的降低过拟合的风险。
奥卡姆剃刀原理,能够很好的解释已知数据并且十分简单才是最好的模型。
7.机器学习常见评价指标
AUC(Area under Curve):是一个模型评价指标,用于二分类模型的评价。
Precision、Recall、F-measure、Accuracy的计算
首先,我们看如下图示: