L0,L1,L2范数的数学意义
(如有不当,敬请斧正)
Tips:
范数所表示的一些数学意义:众数,中位数,均值
-
A: L0范数:求L0范数最小时,表示的是数据中的众数modes(假设
00=0的条件下)。其中
Y:{y1,y2,...,yk}是数据集样本,
β是目标。现目前主流公认较多的均是
00=1,但是此刻
00=0假设会对下列数学表示非常简便,并且能很好体现统一性。
L0=∥Y−β∥0=k1i=1∑k(yi−β)0
特别地,在机器学习中一般并没有使用L0范数,因为一般需要遍历整个数据,开销较大;还有一点就是L0范数能够让0变得多,所以一般用于稀疏。此刻很明显地,当
yi和
β不相等的时候,值总是为1,只有当
β是数据集
Y的众数时候,才能保证L0范数的值最小。
-
B: L1范数:即是绝对值距离;求L1范数最小时,表示的是数据中的中值(中位数medians)。其中
Y和
β表示的意义不变。很好理解就是目标
β要尽可能离数据集
Y更近,表示出L1范数形式如下:
L1=∥Y−β∥1=k1i=1∑k∣yi−β∣
要找出使L1范数最小的
β的值,那么即对它求偏导:
∂β∂L1=−k1i=1∑ksgn(yi−β)
其中
sgn(.)是符号函数(值为+1或者-1),当
∂β∂L1为0的时候,即
β应该是
Y数据集的中值(保证
yi大于
β和小于
β的部分是相同的,才能确保得到的符号函数正负1的值一样来相互抵消,从而偏导为0,得到绝对值距离最值)。
-
C: L2范数:即是平方差(欧式)距离(一般都不用开根号,直接用平方的形式);求L2范数最小的时候,表示的是数据中的均值means。其中
Y和
β表示的意义不变。表示出L2范数形式如下:
L2=∥Y−β∥22=k1i=1∑k(yi−β)2
同样求偏导,当
∂β∂L2为0的时候,即
β应该是均值。
∂β∂L2=−k2i=1∑k(yi−β)
∂β∂L2=0→β=k1i=1∑kyi
参考
http://www.johnmyleswhite.com/notebook/2013/03/22/modes-medians-and-means-an-unifying-perspective/