subgradient

《Subgradients》
Subderivate-wiki
Subgradient method-wiki
《Subgradient method》
Subgradient-Prof.S.Boyd,EE364b,StanfordUniversity
《Characterization of the Subdifferential of Some Matrix Norms 》

定义

我们称 g R n g \in \mathbb{R}^n f : R n R f:\mathbb{R}^{n} \rightarrow \mathbb{R} x d o m f x\in domf 的次梯度,如果对于任意的 z d o m f z \in domf ,满足:
f ( z ) f ( x ) + g T ( z x ) f(z) \ge f(x) + g^T(z-x)
如果 f f 是可微凸函数,那么 g g 就是 f f x x 处的梯度。我们将 z z 看成变量,那么仿射函数 f ( x ) + g T ( z x ) f(x)+g^T(z-x) f ( z ) f(z) 的一个全局下估计。这个次梯度的作用,就是在处理不可微函数的时候,提供一个替代梯度的工具,而且,根据定义,沿着次梯度方向,函数的值是非降的:
f ( α g + x ) f ( x ) + α g T g f(\alpha g+x) \ge f(x) + \alpha g^Tg
另外,如果极限存在,有下面的性质,这联系了方向导数和次梯度:
lim z x + f ( z ) f ( x ) z x g T ( z x ) / z x \lim \limits_{z \rightarrow x^+} \frac{f(z)-f(x)}{\|z-x\|} \ge g^T(z-x)/\|z-x\|
当然,还有从左往右的来的,这里就不讲了。

下图是一个例子,我们可以看到,在存在梯度的地方,次梯度就是梯度,在不可导的地方,次梯度是一个凸集。
在这里插入图片描述

次梯度总是闭凸集,即便 f f 不是凸函数,有下面的性质:
f ( x ) = z d o m f { g f ( z ) f ( x ) + g T ( z x ) } \partial f(x) = \bigcap \limits_{z \in domf} \{ g| f(z) \ge f(x) + g^T (z-x) \}

下面是 f ( x ) = x f(x) = |x| 的例子:
在这里插入图片描述

上镜图解释

g g 是次梯度,当且仅当 ( g , 1 ) (g, -1) f f 的上镜图在 ( x , f ( x ) ) (x, f(x)) 处的一个支撑超平面。
在这里插入图片描述

函数 f f 的上镜图定义为:
e p i f = { ( x , t ) x d o m f , f ( x ) t } \mathbf{epi} f = \{ (x, t) | x \in \mathbf{dom} f, f(x) \le t\}

一个函数是凸函数,当且仅当其上镜图是凸集。

我们来证明一开始的结论,即 g g 是次梯度,当且仅当 ( g , 1 ) (g, -1) f f 的上镜图在 ( x , f ( x ) ) (x, f(x)) 处的一个支撑超平面。
首先,若 ( g , 1 ) (g, -1) f f 的上镜图在 ( x , f ( x ) ) (x, f(x)) 处的一个支撑超平面,则:
g T ( x x 0 ) ( t f ( x 0 ) ) 0 t f ( x 0 ) + g T ( x x 0 ) g^T(x-x_0)-(t-f(x_0)) \le 0 \\ \Rightarrow t \ge f(x_0)+g^T(x-x_0)
对所有 ( x , t ) e p i f (x, t) \in \mathbf{epi} f 成立,令 t = f ( x ) t=f(x) ,结果便得到。
反过来,如果 g g 是次梯度,那么:
f ( z ) f ( x ) + g T ( z x ) f ( z ) f ( x ) g T ( z x ) f(z) \ge f(x) + g^T(z-x) \\ \Rightarrow f(z)-f(x) \ge g^T(z-x)
t f ( z ) , ( z , t ) e p i f t \ge f(z), (z, t) \in \mathbf{epi} f ,所以:
t f ( x ) f ( z ) f ( x ) g T ( z x ) t - f(x)\ge f(z)-f(x) \ge g^T(z-x)
所以, ( g , 1 ) (g,-1) ( x , f ( x ) ) (x, f(x)) 处定义了一个超平面。

次梯度的存在性

如果 f f 是凸函数,且 x i n t d o m f x \in \mathbf{int} \mathbf{dom} f ,那么 f ( x ) \partial f(x) 非空且闭。根据支撑超平面定理,我们知道,在 ( x , f ( x ) ) (x, f(x)) 处存在关于 e p i f \mathbf{epi} f 的一个超平面,设 a R n , b R a \in \mathbb{R}^n, b \in \mathbb{R} ,则对于任意的 ( z , t ) e p i f (z, t)\in \mathbf{epi} f 都有:
在这里插入图片描述
显然, ( x , f ( x ) + ϵ ) (x, f(x)+\epsilon) 也符合条件,这意味着 b 0 b\le0 ,以及:
a T ( z x ) + b ( f ( z ) f ( x ) ) 0 a^T(z-x)+b(f(z) - f(x)) \le 0
对所有 z z 成立。
如果 b = 0 b=0 ,那么 a = 0 a=0 ,不构成超平面,即 b < 0 b < 0
于是:
f ( z ) f ( x ) + a T / b ( z x ) f(z) \ge f(x) +-a^T/b(z-x)
a / b f ( x ) -a/b \in \partial f(x)

性质

极值

x x^* 是凸函数 f ( x ) f(x) 的最小值,当且仅当 f f x x^* 处存在次梯度且
0 f ( x ) 0 \in \partial f(x^*)
f ( x ) f ( x ) 0 f ( x ) f(x) \ge f(x^*) \Rightarrow 0 \in \partial f(x^*)

非负数乘 α f ( x ) \alpha f(x)

( α f ) = α f , α 0 \partial(\alpha f) = \alpha \partial f, \alpha \ge 0

和,积分,期望

f = f 1 + f 2 + f n f = f_1+f_2\ldots+f_n f i , i = 1 , 2 , , m f_i,i=1,2,\ldots,m 均为凸函数,那么:
f = f 1 + f 2 + + f n \partial f=\partial f_1 +\partial f_2 + \ldots +\partial f_n
F ( x ) = Y f ( x , y ) d y F(x)= \int_Y f(x,y) dy , 固定 y y , f ( x , y ) f(x,y) 为凸函数,那么:
F ( x ) = Y x f ( x , y ) d y \partial F(x)=\int_Y \partial_x f(x,y) dy
f ( z , y ) f ( x , y ) + g T ( y ) ( z x ) Y f ( z , y ) d y Y f ( x , y ) d y + Y g T ( y ) d y ( z x ) f(z,y) \ge f(x,y)+g^T(y)(z-x) \\ \Rightarrow \int_Yf(z,y)dy \ge \int_Yf(x,y)dy+\int_Yg^T(y)dy(z-x)
不过需要注意的一点是,这里的等号都是对于特定的次梯度,我总感觉 f f 的次梯度的集合不止于此,或许会稍微大一点?就是对于和来讲,下面这个式子成立吗?:
f = { g 1 + g 2 + + g n g 1 f 1 , , g n f n } \partial f=\{ g_1+g_2+\ldots + g_n| g_1\in \partial f_1, \ldots, g_n\in \partial f_n\}
至少凸函数没问题吧,凸函数一定是连续函数,且左右导数存在,那么 g g 的范围都是固定的。

仿射变换

f ( x ) f(x) 是凸函数,令 h ( x ) = f ( A x + b ) h(x)=f(Ax+b) 则:
f ( A z + b ) f ( A x + b ) + g T ( A z + b A x b ) h ( z ) h ( x ) + ( A T g ) T ( z x ) h ( x ) = A T f ( A x + b ) f(Az+b) \ge f(Ax+b)+g^T(Az+b-Ax-b) \\ \Rightarrow h(z) \ge h(x)+ (A^Tg)^T(z-x) \\ \Rightarrow \partial h(x)=A^T\partial f(Ax+b)

仿梯度

我们知道梯度有下面这些性质:
c = 0 ( φ ± ψ ) = φ ± ψ ( c φ ) = c φ ( φ ψ ) = ψ φ φ ψ ψ 2 f ( φ ) = f ( φ ) φ \nabla c = 0\\ \nabla (\varphi \pm \psi) = \nabla \varphi \pm \nabla \psi \\ \nabla(c\varphi) = c \nabla \varphi \\ \nabla (\frac{\varphi}{\psi})= \frac{\psi \nabla \varphi - \varphi \nabla \psi}{\psi^2} \\ \nabla f(\varphi) = f'(\varphi) \nabla \varphi \\

我认为(注意是我认为!!!大概是是异想天开。) f f 为凸函数的时候,或者 f f 为可微(这个时候是一定的)的时候,上面的性质也是存在的。当然,这只是针对某些次梯度。因为当 f f 为凸函数的时候, f f 的左右导数都存在,那么:
k + : = lim t 0 + f ( x + t e k ) f ( x ) t k_+:=\lim \limits_{t \rightarrow 0^+} \frac{f(x+te_k)-f(x)}{t}
那么(凸函数的性质)
f ( x + t e k ) f ( x ) t k + = ( k + e k ) T ( t e k ) , t > 0 f(x+te_k)-f(x) \ge tk_+=(k_+e_k)^T(te_k), t>0
同理:
k : = lim t 0 f ( x + t e k ) f ( x ) t k_-:=\lim \limits_{t \rightarrow 0^-} \frac{f(x+te_k)-f(x)}{t}
f ( x + t e k ) f ( x ) t k = ( k e k ) T ( t e k ) , t < 0 f(x+te_k)-f(x) \ge tk_-=(k_-e_k)^T(te_k), t<0
而且 k k + k_- \le k_+
事实上,因为:
f ( x + t e k ) f ( x ) t k + k f ( x ) f ( x t e k ) t , t > 0 \frac{f(x+te_k)-f(x)}{t} \ge k_+ \ge k_- \ge \frac{f(x)-f(x-te_k)}{t},t>0
所以,容易证明:
f ( x + t e k ) f ( x ) + ( λ 1 k + + ( 1 λ 1 ) k ) e k T t e k , 0 λ 1 1 f(x+te_k) \ge f(x) + (\lambda_1k_+ + (1-\lambda_1)k_-)e_k^Tte_k, 0 \le \lambda_1 \le 1
容易验证 h ( t ) = f ( x + t v ) h(t) = f(x+tv) 时关于 t t 的凸函数,那么:
K v + : = lim t 0 + h ( t ) h ( 0 ) t v K_v^+ := \lim \limits_{t \rightarrow 0^+} \frac{h(t)-h(0)}{t\|v\|}
同理
K v : = lim t 0 h ( t ) h ( 0 ) t v K_v^- := \lim \limits_{t \rightarrow 0^-} \frac{h(t)-h(0)}{t\|v\|}
一样的分析,我们可以知道:
f ( x + t v ) f ( x ) + ( λ K v + + ( 1 λ ) K v ) v v T t v , 0 λ 1 f(x+tv) \ge f(x) + \frac{(\lambda K_v^+ + (1-\lambda )K_v^-)}{\|v\|} v^Ttv, 0 \le \lambda \le 1
不好意思,证到这里我证不下去了,我实在不知道结果该是什么。

混合函数

在这里插入图片描述

应用

Pointwise maximum

f ( x ) = max i = 1 , 2 , , m f i ( x ) f(x)=\max \limits_{i=1,2,\ldots,m} f_i(x)
其中 f i , i = 1 , 2 , , m f_i,i=1,2,\ldots,m 为凸函数。
在这里插入图片描述

C o ( ) \mathbf{Co}(\cdot) 大概是把里面的集合凸化(我的理解):
C o ( S ) = { λ g 1 + ( 1 λ ) g 2 g 1 , g 2 S , λ [ 0 , 1 ] } \mathbf{Co}(\mathcal{S})=\{ \lambda g_1+(1-\lambda) g_2| g_1,g_2\in \mathcal{S},\lambda \in [0,1]\}

第一个例子,可微函数取最大:
在这里插入图片描述
我倒觉得蛮好理解的,因为 i f ( x ) \nabla_i f(x) j f ( x ) \nabla_j f(x) 如果都是次梯度,那么根据次梯度的集合都是凸集可以知道 i f ( x ) , j f ( x ) \nabla_i f(x),\nabla_j f(x) 的凸组合也是次梯度。

第二个例子, 1 \ell_1 范数:
在这里插入图片描述
我也觉得蛮好理解的。

上确界 supremum

f ( x ) = sup α A f α ( x ) f(x) = \sup \limits_{\alpha \in \mathcal{A}} f_\alpha (x)
f α ( x ) f_\alpha (x) 是次可微的。
在这里插入图片描述

例子,最大特征值问题:
在这里插入图片描述

Minimization over some variables

在这里插入图片描述

拟凸函数

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/MTandHJ/article/details/89067729