一文搞懂 unicode 与 utf-8

服务端 2021-11-16 13:16:49 阅读次数: 0

编码

首先，我们来了解编码是什么？

由于计算机只认识0和1，为了标识字符，需要一套统一的规则来实现诸如 0100 0001-> A 的映射，这就是编码

同时，随着计算机的发展，需要标识的字符不断在增加，导致编码种类也在不断的增加

ASCLL

最基础的编码，是由美国人定义的，他们用1字节（8位）来定义他们使用的所有字符

由于英文就26个字母，256（2^8）个映射位足矣标识所有字符

实际上，ascll只用了后面的7位（首位为0，形如 0xxx xxxx），定义了128个字符，以A为例：

A -> 65 -> 0100 0001

Unicode

随着各个国家都开始用编码来标识自己本国用的字符，大家逐渐发现1字节的编码方式根本不够用：

本国语言可能需要超过256个字符
多国语言对于同一个映射位，有不同的解释，比如上面的65在美国是A，但是在其他国家就可能是别的含义了，大家交流很费事，需要频繁的转换

这时候unicode应运而生，unicode相当于一个超级大（解决1）的字典，每个字符在唯一的值（解决2）

但是unicode只是一个字典，具体编码方式其实没有固定，如下所示：

A->65 -> ?

只规定了一个字符到一个数字的映射

UTF-8

utf-8是unicode的一种实现
兼容了已有的ascll
长度可变，1~4字节

编码规则：

字节长度=1时：第一位填0，剩余7位是该字符的unicode的编码值，这个方式与ascll码的编码方式一致，所以可以完全兼容ascll码
字节长度>1时：假设需要N个字节，第一个字节的前N位都是1，第N+1位设为0，剩余N-1个字节的前两位都是10，剩下来的所有位置用来作为该字符unicode的编码值

规则2说起来较为复杂，我们看下表格就比较容易理解了：

unicode 编码值范围	utf-8 二进制
0000 0000 ~ 0000 007F	0xxxxxxx
0000 0080 ~ 0000 07FF	110xxxxx 10xxxxxx
0000 0800 ~ 0000 FFFF	1110xxxx 10xxxxxx 10xxxxxx
0001 0000 ~ 0010 FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

总结

ascll ：最基础的编码，1字节，实际定义了128个字符
unicode：一种映射规则，为所有字符编上码，但没有具体实现
utf-8：是unicode的一种具体实现，1~4字节，兼容ascll

参考

彻底弄懂 Unicode 编码

猜你喜欢

转载自juejin.im/post/7030803429433802783

一文搞懂 unicode 与 utf-8

一文读懂所有的编码方式(UTF-8、GBK、Unicode、宽字节...)

一文读懂字符编码ASCII、Unicode与UTF-8

unicode, utf-8

Unicode 与 UTF-8

unicode与utf-8

一个UTF-8 与Unicode的转换网站

ascII,unicode,utf-8 utf-16,utf-32,BOM 的解说(一) mark

文本处理的一些技巧 unicode to UTF-8中文 linux shell下16进制 “\uxxxx” unicode to UTF-8中文

Unicode 和 UTF-8

Unicode和UTF-8

Unicode与UTF-8的区别

utf-8 unicode gbk

utf-8与unicode的区别

UTF-8 与 unicode 区别

UTF-8与Unicode的转换

Unicode与UTF-8关系

UNICODE与UTF-8的转换

彻底搞懂字符编码(unicode,mbcs,utf-8,utf-16,utf-32,big endian,little endian...)

Unicode,UTF-8和GBK编码方式，你真的搞懂了吗？

彻底搞懂字符编码ASCII,GB2312,UNICODE,UTF-8

一分钟学会ASCII、Unicode、utf-8编码的异同

字符编码笔记：ASCII，Unicode 和 UTF-8 ----阮一峰

JAVA字符编码系列一：Unicode,GBK,GB2312,UTF-8概念基础

各种编码UNICODE、UTF-8、ANSI、ASCII、GB2312、GBK详解（一）

对字符、字节、编码、解码、ASCII、Unicode、UTF-8 的一些理解

ASCII、Unicode、UTF-8编码关系

ANSI、UNICODE、UTF-8的演变史

Unicode和UTF-8之间的关系

ASCII，Unicode和UTF-8

今日推荐

周排行

8种防盗链的方法

php的序列化和反序列化

Java 8：CompletableFuture

Android版本差异适配方案(5.0-9.0)

makedownpad使用

Spring Boot 使用AOP切面实现后台日志管理模块

实战SSM_O2O商铺_44【DES加密】关键配置信息进行DES加密

ACM排行榜说明

【转】SQL重复记录查询

板球和秃子威力那个大

每日归档

更多

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)