全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴
《深度学习》PDF免费下载:《深度学习》
一、上溢和下溢
一种极具毁灭性的舍入误差是下溢(underflow),当接近零的数被四舍五入为零时发生下溢。另一个极具破坏力的数值错误形式是上溢(overflow),当大量级的数被近似为 ∞ \infty ∞或 − ∞ -\infty −∞时发生上溢。
必须对上溢和下溢进行数值稳定的一个例子是 softmax 函数(softmax function),softmax 函数经常用于预测与 Multinoulli 分布相关联的概率,定义为 s o f t m a x ( x i ) = exp ( x i ) ∑ j = i n exp ( x j ) softmax(x_i)=\frac{\exp(x_i)}{\sum_{j=i}^n\exp(x_j)} softmax(xi)=∑j=inexp(xj)exp(xi)
二、病态条件
条件数表征函数相对于输入的微小变化而变化的快慢程度。输入被轻微扰动而迅速改变的函数对于科学计算来说可能是有问题的,因为输入中的舍入误差可能导致输出的巨大变化。
三、基于梯度的优化方法
我们在负梯度方向上移动可以减小 f f f。这被称为最速下降法(method of steepest descent) 或梯度下降(gradient descent)。
Hessian矩阵等价于梯度的 Jacobian 矩阵,对应得点就是对应的特征方向的二阶偏导值。
例如,牛顿法求解(到时候会在学《统计学习方法》的附录时单独讲解)。
四、约束优化
简单来说就是希望在找 f ( x ) f(x) f(x)的最大值或最小值的时候,给 x x x添加一些约束。
Karush–Kuhn–Tucker(KKT)方法是针对约束优化非常通用的解决方案。
KKT条件(确定最优点的必要非充分条件):
- 广义Lagrangian的梯度为零;
- 所有关于 x x x和KKT乘子的约束都满足;
- 不等式约束显示的“互补松弛性”: α ⊙ h ( x ) = 0 \alpha\odot h(x)=0 α⊙h(x)=0
五、实例:线性最小二乘
直接看课本P85的描述。
下一章传送门:花书读书笔记(四)-机器学习基础