L0，L1，L2范数的数学意义

（如有不当，敬请斧正）

Tips：

范数所表示的一些数学意义：众数，中位数，均值

$\mathcal{A:}$ L0范数：求L0范数最小时，表示的是数据中的众数modes（假设 $0^0=0$ 的条件下）。其中 $\mathcal{Y}:\{{y_1,y_2,...,y_k}\}$ 是数据集样本， $\beta$ 是目标。现目前主流公认较多的均是 $0^0=1$ ，但是此刻 $0^0=0$ 假设会对下列数学表示非常简便，并且能很好体现统一性。
$L0=\|\mathcal{Y-\beta}\|_0=\frac{1}{k}\sum_{i=1}^{k}{(y_i - \beta)^0}$
特别地，在机器学习中一般并没有使用L0范数，因为一般需要遍历整个数据，开销较大；还有一点就是L0范数能够让0变得多，所以一般用于稀疏。此刻很明显地，当 $y_i$ 和 $\beta$ 不相等的时候，值总是为1，只有当 $\beta$ 是数据集 $\mathcal{Y}$ 的众数时候，才能保证L0范数的值最小。
$\mathcal{B:}$ L1范数：即是绝对值距离；求L1范数最小时，表示的是数据中的中值（中位数medians）。其中 $\mathcal{Y}$ 和 $\beta$ 表示的意义不变。很好理解就是目标 $\beta$ 要尽可能离数据集 $\mathcal{Y}$ 更近，表示出L1范数形式如下：
$L1=\|\mathcal{Y}-\beta\|_1=\frac{1}{k}\sum_{i=1}^{k}{|y_i - \beta|}$
要找出使L1范数最小的 $\beta$ 的值，那么即对它求偏导：
$\frac{\partial L1}{\partial \beta}=-\frac{1}{k}\sum_{i=1}^{k}{ sgn( y_i - \beta)}$
其中 $sgn(.)$ 是符号函数（值为+1或者-1），当 $\frac{\partial L1}{\partial \beta}$ 为0的时候，即 $\beta$ 应该是 $\mathcal{Y}$ 数据集的中值（保证 $y_i$ 大于 $\beta$ 和小于 $\beta$ 的部分是相同的，才能确保得到的符号函数正负1的值一样来相互抵消，从而偏导为0，得到绝对值距离最值）。
$\mathcal{C:}$ L2范数：即是平方差（欧式）距离（一般都不用开根号，直接用平方的形式）；求L2范数最小的时候，表示的是数据中的均值means。其中 $\mathcal{Y}$ 和 $\beta$ 表示的意义不变。表示出L2范数形式如下：
$L2=\|\mathcal{Y}-\beta\|_2^2=\frac{1}{k}\sum_{i=1}^{k}{(y_i - \beta)^2}$
同样求偏导，当 $\frac{\partial L2}{\partial \beta}$ 为0的时候，即 $\beta$ 应该是均值。
$\frac{\partial L2}{\partial \beta}=-\frac{2}{k}\sum_{i=1}^{k}{( y_i - \beta)}$
$\frac{\partial L2}{\partial \beta}=0 \rightarrow \beta=\frac{1}{k}\sum_{i=1}^{k}{y_i}$

参考

http://www.johnmyleswhite.com/notebook/2013/03/22/modes-medians-and-means-an-unifying-perspective/

强大源

发布了27 篇原创文章 · 获赞 15 · 访问量 1万+

私信关注

范数的数学意义

L0，L1，L2范数的数学意义

Tips：

参考

猜你喜欢