原文地址:http://blog.csdn.net/k346k346/article/details/50487127

1.浮点数的存储格式

浮点数在C/C++中对应float和double类型，我们有必要知道浮点数在计算机中实际存储的内容。

IEEE754标准中规定float单精度浮点数在机器中表示用 1 位表示数字的符号，用 8 位来表示指数，用23 位来表示尾数，即小数部分。对于double双精度浮点数，用 1 位表示符号，用 11 位表示指数，52 位表示尾数，其中指数域称为阶码。IEEE 浮点值的格式如下图所示。

这里写图片描述

注意，IEE754规定浮点数阶码E采用”指数ｅ的移码-1”来表示，请记住这一点。为什么指数移码要减去1，这是IEEE754对阶码的特殊要求，以满足特殊情况，比如对正无穷的表示。

2.浮点数的规格化

若不对浮点数的表示作出明确的规定，同一个浮点数的表示就不是唯一的。例如(1.75)10” role=”presentation”>(1.75)10等多种形式。当尾数不为0时，尾数域的最高有效位为1，这称为浮点数的规格化。否则，以修改阶码同时左右移动小数点位置的办法，使其成为规格化数的形式。

2.1单精度浮点数真值

IEEE754标准中，一个规格化32位的浮点数x的真值表示为：

x=(&#x2212;1)S&#x00D7;(1.M)&#x00D7;2e” role=”presentation”> x = (- 1) S \times (1. M) \times 2 e

e=E&#x2212;127” role=”presentation”> e = E - 127

其中尾数域表示的值是1.M。因为规格化的浮点数的尾数域最左位总是1，故这一位不予存储，而认为隐藏在小数点的左边。

在计算指数e时，对阶码E的计算采用源码的计算方式，因此32位浮点数的8bits的阶码E的取值范围是0到255。其中当E为全0或者全1时，是IEEE754规定的特殊情况，下文会另外说明。

2.2双精度浮点数真值

64位的浮点数中符号为1位，阶码域为11位，尾数域为52位，指数偏移值是1023。因此规格化的64位浮点数x的真值是：

x=(&#x2212;1)S&#x00D7;(1.M)&#x00D7;2e” role=”presentation”> x = (- 1) S \times (1. M) \times 2 e

e=E&#x2212;1023” role=”presentation”> e = E - 1023

3.移码

移码（又叫增码）是对真值补码的符号位取反，一般用作浮点数的阶码，引入的目的是便于浮点数运算时的对阶操作。

对于定点整数，计算机一般采用补码的来存储。正整数的符号位为0，反码和补码等同于源码。

负整数符号位都固定为1，源码，反码和补码的表示都不相同，由原码表示法变成反码和补码有如下规则：
（1）源码符号位为1不变，整数的每一位二进制数位求反得反码；
（2）反码符号位为1不变，反码数值位最低位加1得补码。

比如，以一个字节8bits来表示-3，那么[−3]原=10000011” role=”presentation”>[−3]原=10000011。

如何将移码转换为真值-3呢？先将移码转换为补码，再求值。

4.浮点数的具体表示

4.1十进制到机器码

（1）0.5
0.5=(0.1)2” role=”presentation”>0.5=(0.1)2，规格化后尾数为1.0。

单精度浮点数尾数域共23位，右侧以0补全，尾数域：

M=[000&#xA0;0000&#xA0;0000&#xA0;0000&#xA0;0000&#xA0;0000]2” role=”presentation”> M = [00000000000000000000000] 2

阶码E:

E=[&#x2212;1]&#x79FB;&#x2212;1=[0111&#xA0;1111]2&#x2212;1=[0111&#xA0;1110]2” role=”presentation”> E = [- 1] 移 - 1 = [01111111] 2 - 1 = [01111110] 2

对照单精度浮点数的存储格式，将符号位S，阶码E和尾数域M存放到指定位置，得0.5的机器码：

0.5=[0011&#xA0;1111&#xA0;0000&#xA0;0000&#xA0;0000&#xA0;0000&#xA0;0000&#xA0;0000]2” role=”presentation”> 0.5 = [00111111000000000000000000000000] 2

。

十六进制表示为0.5=0x3f000000。

（2）1.5
1.5=[1.1]2” role=”presentation”>1.5=[1.1]2，规格化后尾数为1.1。

尾数域Ｍ右侧以0补全，得尾数域:

M=[100&#xA0;0000&#xA0;0000&#xA0;0000&#xA0;0000&#xA0;0000]2” role=”presentation”> M = [10000000000000000000000] 2

阶码E：

E=[&#xFF10;]&#x79FB;&#x2212;1=[10000000]2&#x2212;1=[01111111]2” role=”presentation”> E = [０] 移 - 1 = [10000000] 2 - 1 = [01111111] 2

得1.5的机器码：

1.5=[0011&#xA0;1111&#xA0;1100&#xA0;0000&#xA0;0000&#xA0;0000&#xA0;0000&#xA0;0000]2” role=”presentation”> 1.5 = [00111111110000000000000000000000] 2

十六进制表示为1.5=0x3fc00000。

（3）-12.5
−12.5=[−1100.1]2” role=”presentation”>−12.5=[−1100.1]2，符号位S为1，指数e为3，规格化后尾数为1.1001，

尾数域Ｍ右侧以0补全，得尾数域:

M=[100&#xA0;1000&#xA0;0000&#xA0;0000&#xA0;0000&#xA0;0000]2” role=”presentation”> M = [10010000000000000000000] 2

阶码E：

E=[3]&#x79FB;&#x2212;1=[1000&#xA0;0011]2&#x2212;1=[1000&#xA0;0010]2” role=”presentation”> E = [3] 移 - 1 = [10000011] 2 - 1 = [10000010] 2

即-12.5的机器码：

&#x2212;12.5=[1100&#xA0;0001&#xA0;0100&#xA0;1000&#xA0;0000&#xA0;0000&#xA0;0000&#xA0;0000]2” role=”presentation”> - 12.5 = [11000001010010000000000000000000] 2

十六进制表示为-12.5=0xc1480000。

用如下程序验证上面的推算，代码编译运行平台Win32+VC++ 2012：

#include <iostream>
using namespace std;

int main(){
    float a=0.5;
    float b=1.5;
    float c=-12.5;

    unsigned int* pa=NULL;
    pa=(unsigned int*)&a;
    unsigned int* pb=NULL;
    pb=(unsigned int*)&b;
    unsigned int* pc=NULL;
    pc=(unsigned int*)&c;

    cout<<hex<<"a=0x"<<*pa<<endl;
    cout<<hex<<"b=0x"<<*pb<<endl;
    cout<<hex<<"c=0x"<<*pc<<endl;

    return 0;
}
  
  
   
   1
   
   2
   
   3
   
   4
   
   5
   
   6
   
   7
   
   8
   
   9
   
   10
   
   11
   
   12
   
   13
   
   14
   
   15
   
   16
   
   17
   
   18
   
   19
   
   20
   
   21

输出结果：
这里写图片描述

验证正确。

4.2机器码到十进制

（1）若浮点数x的IEEE754标准存储格式为0x41360000，那么其浮点数的十进制数值的推演过程如下：

0x41360000=[0&#xA0;10000010&#xA0;011&#xA0;0110&#xA0;0000&#xA0;0000&#xA0;0000&#xA0;0000]” role=”presentation”> 0 x 41360000 = [01000001001101100000000000000000]

根据该浮点数的机器码得到符号位S=0，指数e=阶码-127=1000 0010-127=130-127=3。

注意，根据阶码求指数时，可以像上面直接通过 “阶码-127”求得指数e，也可以将阶码+1=移码” role=”presentation” style=”position: relative;”>阶码+1=移码。

包括尾数域最左边的隐藏位1，那么尾数1.M=1.011 0110 0000 0000 0000 0000=1.011011。

于是有：

x=(&#x2212;1)S&#x00D7;1.M&#x00D7;2e=+(1.011011)&#x00D7;23=+1011.011=(11.375)10” role=”presentation” style=”text-align: center; position: relative;”> x = (- 1) S \times 1. M \times 2 e = + (1.011011) \times 23 = + 1011.011 = (11.375) 10

通过代码同样可以验证上面的推算：

#include <iostream>
using namespace std;

int main(){
    unsigned int hex=0x41360000;
    float* fp=(float*)&hex;
    cout<<"x="<<*fp<<endl;
    return 0;
}
  
  
   
   1
   
   2
   
   3
   
   4
   
   5
   
   6
   
   7
   
   8
   
   9

输出结果：
这里写图片描述
验证正确。

5.浮点数的几种特殊情况

（1）0的表示
对于阶码为0或255的情况，IEEE754标准有特别的规定：
如果阶码E=0并且尾数M是0，则这个数的真值为±0（正负号和数符位有关）。

因此+0的机器码为：0 00000000 000 0000 0000 0000 0000。
-0的机器码为：1 00000000 000 0000 0000 0000 0000。

需要注意一点，浮点数不能精确表示0，而是以很小的数来近似表示0。因为浮点数的真值等于（以32bits单精度浮点数为例）：

x=(&#x2212;1)S&#x00D7;(1.M)&#x00D7;2e” role=”presentation” style=”text-align: center; position: relative;”> x = (- 1) S \times (1. M) \times 2 e

e=E&#x2212;127” role=”presentation” style=”text-align: center; position: relative;”> e = E - 127

那么+0的机器码对应的真值为

1.0×2−127” role=”presentation” style=”position: relative;”>1.0×2−1271.0×2−127。

（2）+∞” role=”presentation” style=”position: relative;”>+∞的表示
如果阶码E=255 并且尾数M全是0，则这个数的真值为±∞（同样和符号位有关）。因此+∞的机器码为：0 11111111 000 0000 0000 0000 0000。-∞的机器吗为：1 11111111 000 0000 0000 0000 0000。

（3）NaN（Not a Number）
如果 E = 255 并且 M 不是0，则这不是一个数（NaN）。

6.浮点数的精度和数值范围

6.1浮点数的数值范围

根据上面的探讨，浮点数可以表示-∞到+∞，这只是一种特殊情况，显然不是我们想要的数值范围。

以32位单精度浮点数为例，阶码E由8位表示，取值范围为0-255，去除0和255这两种特殊情况，那么指数e的取值范围就是1-127=-126到254-127=127。

（1）最大正数
因此单精度浮点数最大正数值的符号位S=0，阶码E=254，指数e=254-127=127，尾数M=111 1111 1111 1111 1111 1111，其机器码为：0 11111110 111 1111 1111 1111 1111 1111。

那么最大正数值:

PosMax=(&#x2212;1)S&#x00D7;1.M&#x00D7;2e=+(1.11111111111111111111111)&#x00D7;2127&#x2248;3.402823e+38” role=”presentation” style=”text-align: center; position: relative;”> P o s M a x = (- 1) S \times 1. M \times 2 e = + (1.111 11111111111111111111) \times 2127 \approx 3.402823 e + 38

这是一个很大的数。

（2）最小正数
最小正数符号位S=0，阶码E=1，指数e=1-127=-126，尾数M=0，其机器码为0 00000001 000 0000 0000 0000 0000 0000。

那么最小正数为：

PosMin=(&#x2212;1)S&#x00D7;1.M&#x00D7;2e=+(1.0)&#x00D7;2&#x2212;126&#x2248;1.175494e&#x2212;38” role=”presentation” style=”text-align: center; position: relative;”> P o s M i n = (- 1) S \times 1. M \times 2 e = + (1.0) \times 2 - 126 \approx 1.175494 e - 38

PosMin=(-1)^S\times1.M\times2^e=+(1.0)\times2^{-126}

这是一个相当小的数。几乎可以近似等于0。当阶码E=0，指数为-127时，IEEE754就是这么规定1.0×2−127” role=”presentation” style=”position: relative;”>1.0×2−127近似为0的，事实上，它并不等于0。

（3）最大负数
最大负数符号位S=1，阶码E=1，指数e=1-127==-126，尾数M=0，机器码与最小正数的符号位相反，其他均相同，为：1 00000001 000 0000 0000 0000 0000 0000。

最大负数等于：

NegMax=(&#x2212;1)S&#x00D7;1.M&#x00D7;2e=&#x2212;(1.0)&#x00D7;2&#x2212;126&#x2248;&#x2212;1.175494e&#x2212;38” role=”presentation” style=”text-align: center; position: relative;”> N e g M a x = (- 1) S \times 1. M \times 2 e = - (1.0) \times 2 - 126 \approx - 1.175494 e - 38

NegMax=(-1)^S\times1.M\times2^e=-(1.0)\times2^{-126}

（4）最小负数
符号位S=0，阶码E=254，指数e=254-127=127，尾数M=111 1111 1111 1111 1111 1111，其机器码为：1 11111110 111 1111 1111 1111 1111 1111。

计算得：

NegMin=(&#x2212;1)S&#x00D7;1.M&#x00D7;2e=+(1.11111111111111111111111)&#x00D7;2127=&#x2212;3.402823e+38” role=”presentation” style=”text-align: center; position: relative;”> N e g M i n = (- 1) S \times 1. M \times 2 e = + (1.111 11111111111111111111) \times 2127 = - 3.402823 e + 38

6.2浮点数的精度

说道浮点数的精度，先给精度下一个定义。浮点数的精度是指浮点数的小数位所能表达的位数。

阶码的二进制位数决定浮点数的表示范围，尾数的二进制位数表示浮点数的精度。以32位浮点数为例，尾数域有23位。那么浮点数以二进制表示的话精度是23位，23位所能表示的最大数是223−1=8388607” role=”presentation” style=”position: relative;”>223−1=8388607，所以十进制的尾数部分最大数值是8388607，也就是说尾数数值超过这个值，float将无法精确表示，所以float最多能表示小数点后7位，但绝对能保证的为6位，也即float的十进制的精度为为6~7位。

64位双精度浮点数的尾数域52位，因252−1=4,503,599,627,370,495” role=”presentation” style=”position: relative;”>252−1=4,503,599,627,370,495，所以双精度浮点数的十进制的精度最高为16位，绝对保证的为15位，所以double的十进制的精度为15~16位。。

7.小结

本文操之过急，但也花了将近一天的时间，难免出现编辑错误和不当说法，请网友批评指正。不明之处，欢迎留言交流。对浮点数的乘法、除法运算还未涉及，后续可能会去学习并记录学习所得，与大家分享。

参考文献

[1]移码.百度百科
[2]关于IEEE754标准浮点数阶码的移码.百度知道
[3]计算机组成原理第四版[M].白中英.科学出版社:P16-P30

xxuffei

发布了14 篇原创文章 · 获赞 24 · 访问量 2万+

私信关注