双-单-半精度浮点数的细节

浮点数也就是小数点浮动的数,但是因为在计算机中使二进制表示,不同长度有不同的精度。 三种常用的浮点数的格式:半精度(float16)、单精度(float32)、双精度(float64)
  • Value=sign*exponent*fraction
  • 数值=符号位*指数位*小数位
    • 符号位表示正负
    • 指数位表示次方
    • 小数位表示精度
区别在于指数位和小数位的长度的差异;这样近似值其实也就是有理数的表示方法;

半精度表示π,最大值和最小值:

          

单精度表示π,最大值和最小值:



双精度表示π,最大值和最小值:


Bfloat16

最近还诞生了一种Bfloat16的计数方式,使用和半精度相同的位数,实现了保持和单精度一样的指数位也就是8位指数位,可以表示和单精度相同的数字范围,但是牺牲了小数位也就是精度。
 


参考文献:

猜你喜欢

转载自www.cnblogs.com/kongchung/p/12535798.html