计算机中的数值计算,通常是指通过迭代
过程更新解的估计量来解决数学问题, 而不是我们在草稿纸上通过解析
过程推导出公式来提供准确解的方法。常用的操作包括两类
- 优化:找到最小化或最大化函数值的参数
- 线性方程组的求解
上溢和下溢(underflow & overflow)
在数字计算机,数值存储和处理都是离散的,用有限的内存连一个无限实数都没有办法精确表示。这种计算机表示值和真实值之间的误差,通常情况下表现为一些近似误差,不影响结果的准确性。但是一些计算情况下,误差得以积累放大,或者摄入误差带来质的变化时,会导致理论上可行的算法在编程实践中失效。
- 一种舍入误差是下溢(underflow), 当接近于0 的数被四舍五入为0时发生下溢。比如一个数
0.000000000000000000258
被舍入为0.0
,如果这个数用在加法运算中,那没什么问题。而如果这个数被用在除法运算的分子位置,或者用在取 的位置,那么问题就严重了。有的直接抛异常,有的返回NaN占位符,有的需要预先定义特殊情况,比如 , 以便下一步处理。总之需要特殊考虑。 - 另一种数值错误是上溢(overflow),也就是通常说的溢出。当很大的数值(接近 )突破了计算机存储数值的极限的时候,就会发生上溢。数值变成非数字,或者变成错误的数值。
为了保证运算过程和结果的正确性,必须对上溢和下溢进行数值稳定。一个很突出的例子就是softmax 函数。softmax 函数定义为
- 当 的数值很小的时候, 可能会下溢 为 , 分子为 0,发生错误
- 当 的数值很大的时候, 可能会上溢,发生错误或者数值不准确
那么怎么解决呢?通过研究函数的性质,定义 , 将 转化为 问题:
- 理论上, 和 的结果是一致的
- 计算中, 最大值为 , 最大值为 , 杜绝了上溢。同时保证分子 , 杜绝了下溢。
以上提到的方法具有通用性,对于底层库的开发者而言应时刻注意数值问题。而对于应用层开发者而言,应该选用一些能够自动保持数值稳定的可靠的库,比如Theano
, 它能自动检测并稳定深度学习中许多常见的数值不稳定的表达式。
病态条件
条件数指的是函数相对于输入的微小变化而变化的快慢程度。输入被轻微扰动而迅速改变的函数对于科学计算来说是有问题的,因为输入的舍入误差会可能会导致输出的巨大变化。
考虑函数 。 当 具有特征分解时,其条件数为
也就是最大特征值与最小特征值的模之比。当这个数很大的时候,矩阵求逆对输入的误差特别敏感。可以想象,也就是矩阵张成的空间是一个狭长的而不是圆润饱满的。
这种敏感性是矩阵本身固有的属性,而不是矩阵求逆期间舍入误差导致的结果。