变长整型采用1个标志位和7个数据位的方式来对一个正整型数值进行压缩,标志位的作用是表明除7位数据位外余下数据位的值是否为零,具体计算方式为:将数值与~0x7f进行与运算,如果数值为0表明该数值的有效数据位为7位,否则数值为1表明仍然有有效数据将数值>>>7位后继续前面的步骤,直至为0。
如127 二进制表示为0b01111111,编码为 0b 0_1111111,
128二进制表示为0b10000000,编码为 0b 00000001_10000000,
16384二进制表示为 0b01000000_00000000,编码为0b 00000001_10000000_10000000
这里可以看到128采用变长整型编码后占2个字节,如果采用无符号整型编码只占1个字节,说明变长整型编码在某些情况下反而占用更多的空间,以下是变长编码占用字节的详细情况:
占用字节数 | 数值范围 | 二进制形式 |
1 | <128 | 0b10000000 |
2 | <16384 | 0b01000000_00000000 |
3 | <2097152 | 0b00100000_00000000_00000000 |
4 | <268435456 | 0b00010000_00000000_00000000_00000000 |
5 | <34359738368 | 0b00001000_00000000_00000000_00000000_00000000 |
6 | <4398046511104 | 0b00000100_00000000_00000000_00000000_00000000_00000000 |
7 | <562949953421312 | 0b00000010_00000000_00000000_00000000_00000000_00000000_00000000 |
8 | <72057594037927936 | 0b00000001_00000000_00000000_00000000_00000000_00000000_00000000_00000000 |
9 | <=9223372036854775807 | 0b01111111_11111111_11111111_11111111_11111111_11111111_11111111_11111111l |
10 | 所有负数 |
由于负数的符号位是1,那么采用该编码后是不能达到压缩数据的效果的,改进的方法之一是采用zigzag编码,可以参考“整形数值压缩---Vint与zigzag”。