机器学习基础-损失函数，范数

一、统计学中常见的损失函数有以下几种：

1.0-1损失函数（0-1 loss function）

L (Y, f (x)) = {\begin{cases} 1, Y \neq f (X) \\ 0, Y = f (X) \end{cases}

$L(Y,f(x)) = \begin{cases} 1, Y \neq f(X) \\0, Y = f(X) \end{cases}$
2.平方损失函数（quadratic loss function）

L (Y, f (x)) = (Y - f (X))^{2}

$L(Y,f(x)) = (Y-f(X))^2$
3,绝对值损失函数（absolute loss function）

L (Y, f (x)) = | Y - f (X) |

$L(Y,f(x)) = |Y-f(X)|$
4.对数损失函数（logarithmic loss function）或对数似然损失函数（log-likelihood loss function）

L (Y, P (Y | X)) = - \log P (Y | X)

$L(Y,P(Y|X)) = -\log P(Y|X)$
损失函数值越小也好，由于输入输出（X,Y）是随机变量，遵从联合分布P(X,Y)所以损失函数的期望为：

R_{e x p} (f) = E_{P} [L (Y, f (X))] = \int_{x, y} L (y, f (x)) P (x, y) d x d y

$R_{exp}(f) = E_P[L(Y,f(X))] = \int _{x,y} L(y,f(x))P(x,y)dxdy$
这个就是期望损失。

上面的加上结构挂风险就和总体写成如下式子：

R_{s r m} (f) = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i})) + λ J (f)

$R_{srm}(f) = \frac{1}{N} \sum_{i=1}^N L(y_i , f(x_i)) + \lambda J(f)$
当上面的式子最小的时候就是最优的函数参数。就是：

R_{s r m} (f)_{m i n} = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i})) + λ J (f)

$R_{srm}(f)_{min} = \frac{1}{N} \sum_{i=1}^N L(y_i , f(x_i)) + \lambda J(f)$
这个就是经验风险和结构风险最优化的目标函数。

二、正则化（regularization）

正则化是结构风险最小化测量的实现，是在经验风险上加上一个正则化项，正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值越大。常见的正则化可以是模型参数向量的范数。

一般正则化具有如下形式：

m i n_{f \in F} = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i})) + λ J (f)

$min_{f∈F} = \frac{1}{N} \sum_{i=1}^N L(y_i , f(x_i)) + \lambda J(f)$
其中

λ \geq 0

$\lambda \geq 0$ 调整经验损失和结构损失关系的系数。

正则化可以取不同的形式。例如回归问题，损失函数是平方损失，正则化可以是参数向量的 $L_2$ 范数：

m i n_{f \in F} = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i})) + \frac{λ}{2} | | w | |^{2}

$min_{f∈F} = \frac{1}{N} \sum_{i=1}^N L(y_i , f(x_i)) + \frac{\lambda}{2} ||w||^2$ ,其中

| | w | |^{2}

$||w||^2$ 表示参数w的

L_{2}

$L_2$ 范数。
也可以是

L_{1}

$L_1$ 范数，如下：

m i n_{f \in F} = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i})) + λ | | w | |_{1}

$min_{f∈F} = \frac{1}{N} \sum_{i=1}^N L(y_i , f(x_i)) + \lambda ||w||_1$

三、岭回归（ridge regression）和 LASSO（Least Absolute Shrinkage and Selection Operator）

其中，对简单线性回归模型，给定数据集 $D=\{(x_1,y_1),(x_3,y_2)...,(x_m,y_m)\}$ ，使用平方损失函数（quadratic loss function）引入了 $L_2$ 正则化称为岭回归：

\begin{matrix} (1) & L (Y, f (x)) = (Y - f (X))^{2} + λ | | w | |_{2}^{2} = m i n_{w} \sum_{i = 1}^{m} (y_{i} - w^{T} x_{i})^{2} + λ | | w | |_{2}^{2} \end{matrix}

$L(Y,f(x)) = (Y-f(X))^2 + \lambda ||w||_2^2 \\ = min_{w}\sum _{i=1}^m (y_i - w^Tx_i)^2 + \lambda ||w||_2^2 \tag{1}$
对引入了

L_{1}

$L_1$ 正则化称为 LASSO回归：

\begin{matrix} (2) & L (Y, f (x)) = (Y - f (X))^{2} + λ | | w | |_{1} = m i n_{w} \sum_{i = 1}^{m} (y_{i} - w^{T} x_{i})^{2} + λ | | w | |_{1} \end{matrix}

$L(Y,f(x)) = (Y-f(X))^2 + \lambda ||w||_1 \\ = min_{w}\sum _{i=1}^m (y_i - w^Tx_i)^2 + \lambda ||w||_1 \tag{2}$

$~~~~~~~~~~~~~$ 这里就会有一个疑问， $L_1和L_2$ 都可以做正则化项去结构化最小，那这两个在什么情况下选取呢?怎么选取是合适的呢？这个问题首先要看什么是范数。

四、范数（norm）

数学上，范数是一个向量空间或矩阵上所有向量的长度和大小的求和。简单一点，我们可以说范数越大，矩阵或者向量就越大。范数有许多种形式和名字，包括最常见的：欧几里得距离（Euclideandistance），最小均方误差（Mean-squared Error）等等。
范数参考博客：L1正则和L2正则的比较分析详解 ——-是真的详尽，本节就是引用这篇博文。
大多数时间，你会在等式中看见范数像下面那样：
如一个向量 $\vec a = {[3,-2,1]^T}$ ，其欧几里得范数 $L_2$ 范数为： $||\vec a||_2 = \sqrt{3^2+(-2)^2+1^2} = \sqrt{14} = 3.742$
即向量a的模的大小。上面的例子展示了怎样计算欧几里得范数，或者叫做l2-norm.

X的Lp-norm的规范定义如下： $||\vec x||_p = \sqrt[p]{\sum_i |x_i|^p}$
有趣的是，lp-norm看起来非常相似，但是他们的数学特性非常不同，结果应用场景也不一样。因此，这里详细介绍了几种范式。

L1-norm：

这个范数在范数家族中相当常见，它有很多名字和许多种形式，它的昵称是曼哈顿范数（Manhattannorm）。两个向量或矩阵的l1-norm为：

| | x | |_{1} = \sum_{i} | x_{i} |

$||x||_1 = \sum_i|x_i|$

n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的曼哈顿距离： $d_{12}=\sum_{k=1}^n|x_{1k}-x_{2k}|$

在计算机视觉科学家眼中，它叫做绝对偏差和（Sum of AbsoluteDifference，SAD）。

S A D (x_{1}, x_{2}) = | | x_{1} - x_{2} | |_{1} = \sum | x_{1} - x_{2} |

$SAD(x_1,x_2) = ||x_1 - x_2||_1 = \sum |x_1 -x_2|$

在一般情况下，它可以用于一个单元的偏差计算：它叫做平均绝对误差（Mean-Absolute Error，MAE）.

M A E (x_{1}, x_{2}) = \frac{1}{n} | | x_{1} - x_{2} | |_{1} = \frac{1}{n} \sum | x_{1 i} - x_{2 i} |

$MAE(x_1, x_2) = \frac{1}{n} ||x_1-x_2||_1 = \frac{1}{n} \sum|x_{1i} -x_{2i}|$