SVM两侧决策面逻辑梳理

申明：仅个人小记
前言：主要用来解释SVM中 $\begin {cases} {w}^{T}x_i+b\ge+1,y_i=+1;\cr {w}^{T}x_i+b\le-1,y_i=-1 \end {cases}$ 由来的逻辑。出现的+1和-1有点突兀。

约定

(1) 决策面是一个超平面
(2) 有效决策面指的是能将训练样本完全正确分开的决策面
(3) 决策面的方向指的是该决策面的法向量
(4) 训练集中的样本分为A类和B类。假定A类出现在决策面的正方向一侧，B出现在决策面负方向一侧

正文

（1）基于假设

假设找到了一个有效决策面 ${w}^{T}x+b=0$ ，则该决策面的方向是 $w$ .

（2）移动决策面

让上述决策面沿着 $w$ 的正方向移动，一旦碰到 A类的样本 立即停止移动 ，此时与该样本相交的平面记为 ${w}^{T}x+b=k_1,(k_1 \ge 0)$ （因为是沿着决策面的法向量方向移动的，所以这个新的平面的方向也是 $w$ ），称为A侧决策面。同时，这个相交的样本被称为 支撑向量；同理，沿着 $w$ 反向移动得到新的平面记为 ${w}^{T}x+b=k_2,(k_2 \le 0)$ ，称为B侧决策面。

（3）调整原来的决策面

我们希望有效决策面是处于A、B两类样本的正中间，而不是偏向于某一类。而刚开始基于假设提供的有效决策面 ${w}^{T}x+b=0$ 不一定是我们所希望的处于正中间的，故而需要做出调整 ${w}^{T}x+b=0\rightarrow{w}^{T}x+b^{'}=0$ 使得 ${w}^{T}+b^{'}=0$ 夹在 $\begin {cases}{w}^{T}x+b=k_1,(k_1 \ge 0) \cr {w}^{T}x+b=k_2,(k_2 \le 0) \end {cases}$ 这两个平面正中间，即 $b^{'}=\frac {b-k1+b-k2}{2}=b-\frac {k_1+k_2}{2}$ ，即正中间平面为 ${w}^{T}x+b=\frac {k_1+k_2}{2}\rightarrow{w}^{T}x+b'=0$ .

（4）计算到正中间平面的距离

由 $\begin {cases}{w}^{T}x+b=k_1,(k_1 \ge 0) \cr {w}^{T}x+b=k_2,(k_2 \le 0) \end {cases}$ 和 ${w}^{T}x+b=\frac {k_1+k_2}{2}$ 可分别计算出A、B两侧侧决策面到正中间平面的距离为 $d_A=\frac{\left | {w}^{T}x+b-\frac {k_1+k_2}{2}\right |}{\left \| w \right \|}=\frac{\left | k_1-\frac {k_1+k_2}{2}\right |}{\left \| w \right \|}=\frac {\left | \frac {k_1-k_2}{2}\right |}{\left \| w \right \|}$
$d_B=\frac{\left | {w}^{T}x+b-\frac {k_1+k_2}{2}\right |}{\left \| w \right \|}=\frac{\left | k_2-\frac {k_1+k_2}{2}\right |}{\left \| w \right \|}=\frac {\left | \frac {k_2-k_1}{2}\right |}{\left \| w \right \|}$ 显然， $d=d_A=d_B$

（5）对A、B两侧决策面形变

由(3)知道 $b=b'+\frac {k_1+k_2}{2}$ ,故 $\begin {cases}{w}^{T}x+b=k_1,(k_1 \ge 0) \cr {w}^{T}x+b=k_2,(k_2 \le 0) \end {cases}\rightarrow \begin {cases} {w}^{T}x+b'=\frac {k_1-k_2}{2},(k_1 \ge 0) \cr {w}^{T}x+b'=\frac {k_2-k_1}{2},(k_2 \le 0) \end {cases}$
再结合(4)得，
$\begin {cases} {w}^{T}x+b'=\frac {k_1-k_2}{2},(k_1 \ge 0) \cr {w}^{T}x+b'=\frac {k_2-k_1}{2},(k_2 \le 0) \end {cases}\rightarrow \begin {cases}\frac {{w}^{T}x+b'}{d}=\frac {k_1-k_2}{d}=+1,(k_1 \ge 0) \cr \frac {{w}^{T}x+b'}{d}=\frac {k_2-k_1}{d}=-1,(k_2 \le 0) \end {cases}$ 令 $w'=\frac{w}{d},b''=\frac{b'}{d}$ ，则A、B两侧决策面更变为 $\begin {cases}{w'}^{T}x+b''=+1,(k_1 \ge 0) \cr {w'}^{T}x+b''=-1,(k_2 \le 0) \end {cases}$ 此时契合了和文章开头的式子，以上就是该式子的逻辑由来。