3.2 试证明,对于参数
ω
,,对率回归的目标函数(3.18)是非凸的,但其对数似然函数(3.27)是凸的。
解答:
定理:设
f(x)
是定义在非空开集
D⊂Rn
上的二次可微函数,则
f(x)
是凸函数的充要条件是在任意点
x∈D
处,
f(x)
的Hessian矩阵半正定。
无论是目标函数,还是对数似然函数,二次可微的条件是成立的。所以,只需要判断函数是否满足在任意点处的Hessian矩阵半正定。
y=11+e−(ωTx+b)(1)
∂y∂ω=e−(ωTx+b)(1+e−(ωTx+b))2x(2)
∂2y∂ω∂ωT=∂∂ωT∂y∂ω=∂∂ωTe−(ωTx+b)(1+e−(ωTx+b))2x=e−(ωTx+b)(1−e−(ωTx+b))(1+e−(ωTx+b))3xxT=y(1−y)(1−2y)xxT(1)(2)(3)(3)
矩阵
xxT
是半正定矩阵。而
y(1−y)(1−2y)
在
y∈(12,1)
上是小于0的。所以Hessian矩阵并不能保证总是非负的,即函数(1)是非凸的。
l=∑i=1m(−yiβTx^i+ln(1+eβTx^i))(4)
∂l∂β=∑i=1m(−yix^i+eβTx^i1+eβTx^ix^i)(5)
∂2l∂β∂βT=∂∂βT∂l∂β=∂∂βT∑i=1m(−yix^i+eβTx^i1+eβTx^ix^i)=∑i=1meβTx^i(1+eβTx^i)2x^ix^Ti(4)(5)(6)(6)
因为
eβTx^i(1+eβTx^i)2>0
,矩阵
x^ix^Ti
半正定,所以
∂2l∂β∂βT
也是半正定的,所以函数(4)是凸函数。
3.3 西瓜书《机器学习》课后答案——Chapter3_3.3
3.4 西瓜书《机器学习》课后答案——Chapter3_3.4
3.5 西瓜书《机器学习》课后答案——Chapter3_3.5