转载:
https://blog.csdn.net/iteye_3946/article/details/81640056
https://www.zhihu.com/question/23374078/answer/69732605
为了在读取字节时能知道所采用的字节序,在传输时采用了一个名为 “ZERO WIDTH NON-BREAKING SPACE”(U+FEFF)的字符用于限定字节序, 开头两个字节为 FE FF 时为 Big-Endian,为 FF FE 时为 Little-Endian。 详见 RFC2781 3.2 节。
在 Java 中直接使用 Unicode 转码时会按照 UTF-16LE 的方式拆分,并加上 BOM。 如果采用 UTF-16 拆分,在 Java 中默认采用带有 BOM 的 UTF-16BE 拆分。
Little-Endian:就是低位字节排放在内存的低地址端,高位字节排放在内存的高地址端。
Big-Endian:就是高位字节排放在内存的低地址端,低位字节排放在内存的高地址端。
为什么UTF-8中看不到BOM头?
Unicode符号范围 | UTF-8编码方式
(十六进制) | (二进制) #Unicode部分为16进制编码, UTF-8编码为2进制
—————————————————————–————————————–
0000-0000 007F | 0xxxxxxx #UTF-8规定,若1字符=1字节,首位须为‘0’
0080-0000 07FF | 110xxxxx 10xxxxxx #UTF-8规定,若1字符=2字节,高位字节前3位为‘110’,低位前2位为‘10’
0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx #UTF-8规定,若1字符=3字节,高位字节前3位为‘110’,后面低位前2位一律为‘10’。(占4,5字节字符规则以此类推)
UTF-8 是采用 1~4 个字节来表示 Unicode 字符的,每个 Unicode 的 UTF-8 编码的 第一个字节是有一定范围的,如果读取到某个字节的最高位为 0 那么采用一个字节表 示,如果最高位是两个“1”就采用两个字节表示,最高位是三个“1”采用三个字节表 示,以此类推。多字节表示时,第二个和后面的字节的最高位只能是“10”,也就是说 UTF-8 编码时字符的第一个字节的最高位不可能是“10”。 因此,UTF-8 只能采用 Big-Endian 的 BOM 方式。BOM 头 U+FEFF,UTF-8 编码为 EF BB BF 就稳含掉了。
测试:
System.out.println("Unicode");
System.out.println("中"+Arrays.toString("中".getBytes("Unicode")));
System.out.println("文"+Arrays.toString("文".getBytes("Unicode")));
System.out.println("中文"+Arrays.toString("中文".getBytes("Unicode")));
System.out.println("UTF-8");
System.out.println("中"+Arrays.toString("中".getBytes("UTF-8")));
System.out.println("GBK");
System.out.println("中"+Arrays.toString("中".getBytes("GBK")));
输出:
在输出结果中可以看到,将字符串转换成Unicode编码的字节数组时,数组存在额外字节-2,-1。字节-2的补码为0xFE,字节-1的补码为0xFF,连起来FEFF表示Big-Endian。