UA MATH567 高维统计IV Lipschitz组合1 Lipschitz函数
高维统计的第二部分与第三部分分别讨论了基于亚高斯性导出的随机向量与随机矩阵的concentration inequality,这条推导路径需要独立性的假设;在第一部分的第十二讲我们介绍过McDiarmid不等式,它给出了比内积、范数更广义的Lipschitz组合的concentration inequality,尽管我们当时没有做深入讨论,使用Lipschitz的假设可以替换独立性的假设,进一步讨论随机向量与随机矩阵在没有独立性假设时的concentration inequality,高维统计的第四部分会介绍一些相关的结果。
我们从Lipschitz函数开始介绍:
( X , d X ) , ( Y , d Y ) (X,d_X),(Y,d_Y) (X,dX),(Y,dY)是两个度量空间, f : X → Y f:X \to Y f:X→Y是Lipschitz函数如果 ∃ L ≥ 0 \exists L\ge 0 ∃L≥0,(这个 L L L被称为Lipschitz常数)
d Y ( f ( u ) , f ( v ) ) ≤ L d X ( u , v ) , ∀ u , v ∈ X d_Y(f(u),f(v)) \le L d_X(u,v),\forall u,v \in X dY(f(u),f(v))≤LdX(u,v),∀u,v∈X
称 ∥ f ∥ L i p \left\| f \right\|_{Lip} ∥f∥Lip为Lipschitz函数 f f f的Lipschitz范数,
∥ f ∥ L i p = inf { L ≥ 0 : d Y ( f ( u ) , f ( v ) ) ≤ L d X ( u , v ) , ∀ u , v ∈ X } \left\| f \right\|_{Lip} = \inf\{L\ge 0:d_Y(f(u),f(v)) \le L d_X(u,v),\forall u,v \in X\} ∥f∥Lip=inf{
L≥0:dY(f(u),f(v))≤LdX(u,v),∀u,v∈X}
说明
我们先验证一下Lipschitz范数满足范数的定义:用 L i p Lip Lip表示 ( X , d X ) (X,d_X) (X,dX)到 ( Y , d Y ) (Y,d_Y) (Y,dY)的所有Lipschitz函数,不难验证 L i p Lip Lip是一个线性空间,下面说明 ∥ f ∥ L i p \left\| f \right\|_{Lip} ∥f∥Lip满足范数的定义,
- 非负性:因为Lipschitz常数非负,所以 ∥ f ∥ L i p \left\| f \right\|_{Lip} ∥f∥Lip非负,并且,如果 ∥ f ∥ L i p \left\| f \right\|_{Lip} ∥f∥Lip为0,那么 ∀ u , v \forall u,v ∀u,v, d Y ( f ( u ) , f ( v ) ) ≤ 0 d_Y(f(u),f(v)) \le 0 dY(f(u),f(v))≤0,根据度量的定义, d Y ( f ( u ) , f ( v ) ) ≤ 0 d_Y(f(u),f(v)) \le 0 dY(f(u),f(v))≤0等价于 d Y ( f ( u ) , f ( v ) ) = 0 d_Y(f(u),f(v)) = 0 dY(f(u),f(v))=0等价于 f ( u ) = f ( v ) f(u)=f(v) f(u)=f(v),于是 f f f是常数,因为所有常值函数的Lipschitz范数都是0,在赋范线性空间 ( L i p , ∥ ∥ L i p ) (Lip,\left\| \right\|_{Lip}) (Lip,∥∥Lip)中,我们可以认为所有的常值函数等价;
- 正齐次性: ∥ λ f ∥ L i p = inf { L ≥ 0 : d Y ( λ f ( u ) , λ f ( v ) ) ≤ L d X ( u , v ) , ∀ u , v ∈ X } \left\| \lambda f \right\|_{Lip}=\inf\{L\ge 0:d_Y(\lambda f(u),\lambda f(v)) \le L d_X(u,v),\forall u,v \in X\} ∥λf∥Lip=inf{ L≥0:dY(λf(u),λf(v))≤LdX(u,v),∀u,v∈X}其中 d Y ( λ f ( u ) , λ f ( v ) ) ≤ ∣ λ ∣ d Y ( f ( u ) , f ( v ) ) d_Y(\lambda f(u),\lambda f(v)) \le |\lambda |d_Y( f(u), f(v)) dY(λf(u),λf(v))≤∣λ∣dY(f(u),f(v)),所以 d Y ( λ f ( u ) , λ f ( v ) ) ≤ ∣ λ ∣ d Y ( f ( u ) , f ( v ) ) ≤ ∣ λ ∣ L d X ( u , v ) d_Y(\lambda f(u),\lambda f(v)) \le |\lambda |d_Y( f(u), f(v)) \le |\lambda| Ld_X(u,v) dY(λf(u),λf(v))≤∣λ∣dY(f(u),f(v))≤∣λ∣LdX(u,v),于是 ∥ λ f ∥ L i p = ∣ λ ∣ ∥ f ∥ L i p \left\| \lambda f \right\|_{Lip}=|\lambda|\left\| f \right\|_{Lip} ∥λf∥Lip=∣λ∣∥f∥Lip
- 三角不等式: ∥ f + g ∥ L i p = inf { L ≥ 0 : d Y ( ( f + g ) ( u ) , ( f + g ) ( v ) ) ≤ L d X ( u , v ) , ∀ u , v ∈ X } \left\| f+g \right\|_{Lip}=\inf\{L\ge 0:d_Y((f+g)(u),(f+g)(v)) \\ \le L d_X(u,v),\forall u,v \in X\} ∥f+g∥Lip=inf{
L≥0:dY((f+g)(u),(f+g)(v))≤LdX(u,v),∀u,v∈X}根据Minkowski不等式
d Y ( ( f + g ) ( u ) , ( f + g ) ( v ) ) ≤ d Y ( f ( u ) , f ( v ) ) + d Y ( g ( u ) , g ( v ) ) d_Y((f+g)(u),(f+g)(v)) \le d_Y(f(u),f(v))+d_Y(g(u),g(v)) dY((f+g)(u),(f+g)(v))≤dY(f(u),f(v))+dY(g(u),g(v))于是 d Y ( ( f + g ) ( u ) , ( f + g ) ( v ) ) ≤ ∥ f ∥ L i p d X ( u , v ) + ∥ g ∥ L i p d X ( u , v ) d_Y((f+g)(u),(f+g)(v)) \le \left\| f \right\|_{Lip}d_X(u,v)+\left\| g \right\|_{Lip}d_X(u,v) dY((f+g)(u),(f+g)(v))≤∥f∥LipdX(u,v)+∥g∥LipdX(u,v)
Lipschitz函数的分析性质
- Lipschitz函数一致连续;
- 紧集上的 C 1 C^1 C1函数是Lipschitz函数(事实上我们需要的是一阶导有界);
说明
这两个性质说明Lipschitz介于 C 0 C^0 C0与 C 1 C^1 C1之间。
有的时候第二条性质容易被简单理解成可微函数就是Lipschitz函数,但这个说法并不严谨,比如 f ( x ) = x 1 / 3 , x ∈ [ − 1 , 1 ] f(x)=x^{1/3},x \in [-1,1] f(x)=x1/3,x∈[−1,1],显然 f f f是可微的,但它不是Lipschitz函数,因为在 x = 0 x=0 x=0处, f ′ ( 0 ) = + ∞ f'(0)=+\infty f′(0)=+∞,所以 ∀ ϵ > 0 \forall \epsilon>0 ∀ϵ>0,
f ( 0 + ) − f ( 0 − ) > ϵ f(0^+)-f(0^-) > \epsilon f(0+)−f(0−)>ϵ
显然它不会是Lipschitz函数,因此可微且一阶导有界的函数才是Lipschitz函数。
另外,Lipschitz函数一定是一致连续但不一定是可微的,比如 f ( x ) = ∣ x ∣ , x ∈ [ − 1 , 1 ] f(x) = |x|,x \in [-1,1] f(x)=∣x∣,x∈[−1,1],它是一致连续的函数也是Lipschitz函数,但它在0处不可微。