(笔记—深度学习)：Chapter4-数值计算

机器学习中需要大量的数值运算，通常指的是迭代更新求解数学问题。常见的操作包括优化算法和线性方程组的求解。

1-溢出

下溢：由于计算机进行数值计算时精度有限，下溢是在四舍五入为零时发生。例如：当零做除数时，会返回非数值( $not \ a \ number,\mathrm{NaN}$ ),对零取对数则会得到 $-\infty$
上溢：当大数量级的数被近似为” $+\infty,-\infty$ ”时，进一步的运算容易导致返回（ $\mathrm{NaN}$ ）
对上溢和下溢需要进行数值稳定，例如 $softmax$ 函数:
$s o f t m a x (x_{i}) = \frac{e x p (x_{i})}{\sum_{j = 1}^{n} e x p (x_{j})}$ $\mathrm {softmax}(x_i) =\frac{exp(x_i) }{\sum_{j=1}^{n}exp(x_j)}$

若 $x_i$ 是都是很小的负数， $exp(x_i)$ 会发生下溢，分母会变为0，则最后的结果会是NaN。当 $x_i$ 是很大的正数， $exp(x_i)$ h会发生上溢，同样会导致结果未定义。这两种情况都可以通过 $\mathrm{softmax}(z), z_i = x_i -max(x_i)$ 来解决。 $z_i$ 的最大值为0，且相当于分子分母同时除以 $exp(max(x_i))$ ，并不会影响 $\mathrm{softmax}$ 的结果。
还有个小问题：在计算 $\mathrm{logsoftmax}(x)$ 时，如果先计算 $\mathrm{softmax}(x)$ ,载将其传给 $\mathrm{log}(x)$ ,分子的下溢就会导致 $\mathrm{log}(0) = -\infty$ 。因此需要以数值稳定方式同时计算 $\mathrm{logsoftmax}$ ：

l o g s o f m a x (z_{i}) = z_{i} - l o g (\sum_{j}^{n} e x p (z_{j}))

$\mathrm{logsofmax}(z_i) = z_i - \mathrm{log}\Bigr(\sum_j^n\mathrm{exp}(z_j)\Bigr)$

2-病态条件

条件数用于表征当输入发生微小变化时，函数变化的快慢程度。
例如： $f(\boldsymbol x) =A^{-1}\boldsymbol x, 当A\in\mathbb R^{n\times n}$ 具有特征分解时，条件数为： $max|\lambda_i/\lambda_j|$ ,条件数较大时，求逆对于输入误差特别敏感。
这是矩阵本身的特性，与计算机精度无关。

3- 基于梯度下降的优化

优化是指通过改变 $x$ 来最大化或最小化函数 $f(x)$ .在深度学习中，通常都是用最小化函数拉进行优化，对于最大化任务则可以通过最小化 $-f(x)$ 来完成。表示为：

x^{*} = a r g m i n f (x) .

$x^* = argmin f(\boldsymbol x).$

f (x)

$f(x)$ 可以称之为 目标函数( $\mathrm {object \ function}$ ),或者准则( $\mathrm{crition}$ ), 在最小化任务中还可以称之为 损失函数( $\mathrm{loss\ function}$ )、代价函数( $\mathrm{cost \ function}$ )或误差函数( $\mathrm{error\ function}$ )。
函数的导数：

f^{'} (x) = 0

$f'(x) = 0$ 时，

x

$x$ 称为临界点(

c r i t i c a l p o i n t

$\mathrm {critical \ point}$ )或驻点(

s t a t i o n a r y p o i n t

$\mathrm{stationary\ point}$ ),这些点有可能是局部极小点、局部极大点或者鞍点。
g

x^{'} = x - ϵ ▽_{x} f (x)

$x' = x - \epsilon \bigtriangledown_xf(x)$
其中

ϵ

$\epsilon$ 为学习率(learning rate)，用于确定更新的步长大小。可以通过线搜索的方式选择合适的学习率，即根据几个备选

ϵ

$\epsilon$ 最终所得到的目标函数的最小值，选择结果最小的那个。