unicode字符编码区间表

因为我也没有找到更适合的参考资料，因此只能自己生成一份编码表，然后从中找出这些特征，不过大部份来说都是准确的，有些个别的外语，我也不知道是什么。(文 IT柏拉图)

至于这个表是干吗的，如果你想对用户输入的一些东西进行过滤或尝试识别乱码，或编码具于utf-8编码的分词系统，那么这些参考资料是很有意义的。

一、中文汉字区：

(1)生冷字：

0x3400--0x4DB5

(2)普通：

0x4E00--0x9FA5

(3)其它：

0xF900--0xFA2C

二、韩文区：

(1)韩文音标字符区

0x1100--0x11F9

0x3130--0x318E

(2)韩文：

0xAC00--0xD7A3

三、符号表情：

(1)分段字符（如：① ⑴ ⒈ ）

0x2460--0x24E9

(2)制表附助、特殊字符等(┊┌┍ ▃ ▄ ▅)

0x2500--0x25FF

(3)实物体字符

0x2600--0x2671

0x2700--0x27FF

(4)全角括号(《》「」『』【】〔〕〖〗等)

0x3007--0x301A

(5)特殊序号或单位元素区(㈠㎎㎏㎡等)

0x3200--0x33FF

(6)与ANSI对应的全角字符

0xFF00--0xFF5E

对应： 0x0020--0xFF7E (即 ! -- ~ 的区间)

(7)其它特殊符号

0x2000--0x22FF

四、日本字符或假名符号区：

0x3041--0x30FF

0x3104--0x312A

0xFF66--0xFF9E

其中平假名：0x3041--0x3094

片假名：0x30A1--0x30FA

五、其它字条或音标区：

(1)罗马音标

0x00C0--0x0232

(2)类罗马音标或欧洲字符

0x0386--0x04F3

0x1E00--0x1EFF

0x1F00--0x1FFF

(3)阿拉伯语

0x0620--0x06FF

(4)佛教混合梵语

0x0904--0x0970

0x0A00--0x0AEF

0x0E00--0x0E32

六、unicode编码与UTF-8编码转换：

Unicode符号范围 | UTF-8编码方式

u0000 0000 - u0000 007F | 0xxxxxxx

u0000 0080 - u0000 07FF | 110xxxxx 10xxxxxx

u0000 0800 - u0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx

unicode字符编码区间表

猜你喜欢