1 分离与支撑超平面
(图片来自斯坦福Boyd Convex Optimization)
假设
C
和
D
是两个不相交的凸集,那么一定存在
a≠0
的超平面
aTx=b
将凸集分隔开,使
C
中点满足
aTx≤b
,而
D
中点满足
aTx≥b
。注意,逆定理能被超平面分离说明不相交是不成立的。
严格分离:如果存在
a≠0
的超平面
aTx=b
将凸集分隔开,使
C
中点满足
aTx<b
,而
D
中点满足
aTx>b
,我们称超平面将凸集严格分离。对于不相交的凸集来说,不一定能被严格分离,但是通常是可以构造出严格分离的。
(图片来自斯坦福Boyd Convex Optimization)
设
C⊆Rn
而
x0
是其边界
bdC
上一点,若
a≠0
,并且对于任意
x∈C
满足
aTx≤aTx0
,那么称超平面
{x∣aTx=aTx0}
为集合
C
在
x0
点处的支撑超平面。(有点像切线的感觉)对于任意非空的凸集边界上任意一点一定存在支撑超平面。
2 对偶锥
令
K
是一个锥,集合
K∗={y∣xTy≥0,∀x∈K}
,称为
K
的对偶锥。
K∗
是一个锥,而且总是凸的,即使
K
不是凸锥。
(图片来自斯坦福Boyd Convex Optimization)
我们从几何角度来看看对偶锥。对偶锥的几何意义如下:
对于左图,如果认为
y
是内法向量,那么
y
一侧的半平面包含
K
,所以
y
在对偶锥
K∗
里。
对于右图,如果认为
z
是内法向量,那么
z
一侧的半平面不包含
K
,所以
z
不在在对偶锥
K∗
里。
所以,我们很容易得到,对偶锥的范围实际就是上图阴影所示的范围。(很像初中几何的,这个锥的两条边和
K
的两条边相互垂直,所以夹角和
K
互补)
下面举几个常见对偶锥的例子:
K=Rn+,K∗=Rn+
K=Sn+,K∗=Sn+
这种情况我们称为锥自对偶。
范数锥的对偶:
K={(x,t)∣∥x∥2≤t}
K∗={(x,t)∣∥x∥2≤t}
K={(x,t)∣∥x∥1≤t}
K∗={(x,t)∣∥x∥∞≤t}
关于锥的对偶还有一个重要的性质:
如果
K
是一个正常锥,那么
K∗
也是一个正常锥。进一步有
K∗∗=K
最小元的对偶性质
我们首先考虑最小元的性质。
x
是
S
上关于广义不等式
⪯K
的最小元的充要条件是,对于所有
λ≻K∗0
,
x
是在
z∈S
上极小化
λTz
的唯一最优解。在几何上看,这意味着对于任意
λ≻K∗0
,超平面
{z∣λT(z−x)=0}
是在
x
处对
S
的一个严格支撑超平面(即这个超平面与
S
只相交于
S
)。
(图片来自斯坦福Boyd Convex Optimization)
点
x
是集合
S
中关于
R2+
的最小元。这个等价解释如下:
R2+
的对偶锥还是
R2+
。由上面定义,对于任意
λ≻R2+0
,超平面
{z∣λT(z−x)=0}
严格支撑。(超平面目前就是直线,
λ
是超平面的法线)
设
λ=[AB],λ≻R2+0⇒λ∈R2+⇒A>0,B>0
由平面几何知识,超平面的法向量是
(A,B)
,因为
A>0,B>0
所以法线指向第一象限。
因为法线在第一象限,所以超平面所在区域可以理解为在上图弧线的对测的优角所在的区域。
举个例子就是这样。
因此,这个区域内的超平面很明显都是
S
的支撑超平面。(还都只在
x
点与
S
相交)
因此,用几何解释了
x
是
R2+
上的最小元。
我们讨论极小元的类似性质。注意,此时充分条件和必要条件不完全一致,我们要分别讨论。
如果
λ≻K∗0
并且
x
在
z∈S
上极小化
λTz
,那么x是极小的;
从几何上来看与最小元的定理是很相似的,只是这次支撑超平面可能不止一个了,如下图所示:(找最小或者极小
λTx(λ>0)
只需要做以
λ
为法向量的直线,从左下方向右上方移动找相切的切点)
(图片来自斯坦福Boyd Convex Optimization)
上图左下边界暗色区域均是极小元,因为都可以类似
x1,x2
一样找到也个切点。
这个命题的逆命题只有在
S
在凸的时候才成立(其实逆定理和原定理的逆命题有一点区别,过一会我们讨论这个问题)。如果
S
不是凸集,那么可能
S
上的极小元
x
对于任何
λ
都不是
z∈S
上极小化
λTz
的解。下图展示了这种情况。
(图片来自斯坦福Boyd Convex Optimization)
由于
S
不是凸的,左侧突出的部分才是极小化
λTz
的解。然而,
x
依然是极小元。(因为
x
的左下侧阴影与
S
不相交)
(图片来自斯坦福Boyd Convex Optimization)
另外注意的是,即使
S
是凸的,成立的逆定理是:
假设
S
是凸集,可以说对于任意的极小元
x
,存在非零的
λ⪰K∗0
使得
x
在
z∈S
上极小化
λTz
。
正命题的
≻
变成了非零
⪰
。为什么呢?看上图左边这个例子。
点
x1∈S1
是极小的,但对于任何
λ≻0
,它都没有在
S1
上极小化
λTz
。(因为极小化
λTz
成立的向量是
λ=[1,0]T
,这个向量
λ=[1,0]T
不满足
λ≻0
)
正命题我们也不能将
≻
变成
⪰
,同样是不成立的。右图是这种情况的反例:
点
x2∈S2
不是极小的,但对于
λ=[0,1]T⪰0
,它确实极小化了
λTz
。
(未完,待续)