1.SVM（support vector machine）：

支持向量机。SVM是一个面向数据的分类算法。目标是为确定一个分类超平面，从而将不同的数据分隔开。

2.向量的范数

向量的1-范数：各个元素的绝对值之和。

向量的2-范数：每个元素的平方和再开平方根；

向量的无穷范数：

正无穷范数：向量的所有元素的绝对值中最大值。
负无穷范数：向量的所有元素的绝对值的最小值

3.矩阵的范数

L1范数: 为x向量各个元素绝对值之和。
L2范数: 为x向量各个元素平方和的1/2次方，L2范数又称Euclidean范数或Frobenius范数
Lp范数: 为x向量各个元素绝对值p次方和的1/p次方.

1.矩阵的1范数（列模）：矩阵的每一列上的元素绝对值先求和，再从中取个最大的（列和最大）

2.矩阵的2-范数（谱模）

3.矩阵的无穷范数（行模）：矩阵的每一行上的元素绝对值先求和，再从中取个最大的，（行和最大）

4.矩阵的L0范数：矩阵的非0元素的个数，通常用它来表示稀疏，L0范数越小0元素越多，也就越稀疏。

4.L1和L2正则先验分别服从什么分布

L1是拉普拉斯分布

L2是高斯分布

5.监督学习和无监督学习

监督学习：对具有标记的样本进行学习，以尽可能对训练样本集外的数据进行分类预测。

无监督学习：对未标记的样本进行训练学习，比发现这些样本中的结构知识。

6.正则化

正则化是针对过拟合而提出的，以为在求解模型最优的是一般优化最小的经验风险，现在在该经验风险上加入模型复杂度这一项（正则化项是模型参数向量的范数），并使用一个rate比率来权衡模型复杂度与以往经验风险的权重，如果模型复杂度越高，结构化的经验风险会越大，现在的目标就变为了结构经验风险的最优化，可以防止模型训练过度复杂，有效的降低过拟合的风险。
奥卡姆剃刀原理，能够很好的解释已知数据并且十分简单才是最好的模型。

7.机器学习常见评价指标

AUC（Area under Curve）:是一个模型评价指标，用于二分类模型的评价。

Precision、Recall、F-measure、Accuracy的计算
首先，我们看如下图示：

数据的分析基本知识2