UTF-8编码规则解析

在将多个（UTF-8）字节数组转换为字符串的时候，可能会发生乱码，这不是因为编码问题。

UTF-8是一种变长字节编码方式。对于某一个字符的UTF-8编码，如果只有一个字节则其最高二进制位为0；如果是多字节，其第一个字节从最高位开始，连续的二进制位值为1的个数决定了其编码的位数，其余各字节均以10开头。UTF-8最多可用到6个字节。

所以，如果一个字符编码成3个字节，但是一个字节数组的结尾可能只包含了其中两个字节，而后一个字节数组开头包含了该字符编码的最后一个字节，那么，如果两个字节数组单独解码，就会发生乱码。

要解决这个问题，要了解UTF-8的编码规则，如下所示：

1字节0xxxxxxx
2字节110xxxxx 10xxxxxx
3字节1110xxxx 10xxxxxx 10xxxxxx
4字节11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5字节111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6字节1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

知道了编码规则，就知道如何处理这种情况了

当要对一个字节数组进行解码时，要对这个字节数组最后几个字节进行判断，如果是一个完整的字符，则可以进行解码

否则，要将不完整的字节截取出来，拼接到下一字节数组后进行解码。

关于UTF-8占几个字节的问题

占2个字节的：〇

占3个字节的：基本等同于GBK，含21000多个汉字

占4个字节的：中日韩超大字符集里面的汉字，有5万多个

一个utf8数字占1个字节

一个utf8英文字母占1个字节

在查找 UTF-8 编码资料时发现，很多的帖子说的 UTF-8 编码里，一个汉字占用3个字节，有的还做了个证明，大概是这样的，创建一个没有BOM的UTF-8编码的文本文件，里面保存了几个汉字，然后查看文件的大小。我觉得这样的证明没有一点说服力，因为 UTF-8 是变长的，1-6个字节，少量的汉字检测是不能说明所有的汉字都是的。

后来我又查看了字符映射表－汉语，找到了正确的答案，少数是汉字每个占用3个字节，多数占用4个字节。

占用3个字节的范围

[text] view plaincopy
 
       
 U+2E80 - U+2EF3 : 0xE2 0xBA 0x80 - 0xE2 0xBB 0xB3      共 115 个  
 U+2F00 - U+2FD5 : 0xE2 0xBC 0x80 - 0xE2 0xBF 0x95      共 213 个  
 U+3005 - U+3029 : 0xE3 0x80 0x85 - 0xE3 0x80 0xA9      共 36 个  
 U+3038 - U+4DB5 : 0xE3 0x80 0xB8 - 0xE4 0xB6 0xB5      共 7549 个  
 U+4E00 - U+FA6A : 0xE4 0xB8 0x80 - 0xEF 0xA9 0xAA      共 44138 个  
 U+FA70 - U+FAD9 : 0xEF 0xA9 0xB0 - 0xEF 0xAB 0x99      共 105 个  

合计： 52156 个

占用4个字节的范围

[text] view plaincopy
 
 U+20000 - U+2FA1D : 0xF0 0xA0 0x80 0x80 - 0xF0 0xAF 0xA8 0x9D      共 64029 个

合计： 64029 个

如果想了解一下编码史，可以看一下这篇博客：http://blog.csdn.net/baixiaoshi/article/details/40786503

后续会贴出转换的测试代码：

。

UTF-8编码规则解析

关于UTF-8占几个字节的问题

猜你喜欢