一:编码简介
1、ASCII编码中的字符每一个占用8bits,一个字节
2、中文起初是使用ASCII码中的扩展位实现编码的,与中文扩展表实现一一对应的关系
以此为基础的编码有:
GB2312 1980年 6763字 682字符
GBK1.0 1995年 21003字
GB18030 2000年 27484字(包括藏文等少数民族语言)
中国要求PC系统必须支持GB18030,嵌入式硬件不作要求
3、为了整合各个国家的映射,出现了万国码:
Unicode,其中包括:
unicode: utf-32:一个字符占4bytes
unicode: utf-16:所有的占2bytes或大于2bytes
unicode: utf-8 英文等ASCII码表中的占一个字节,中文占3bytes,欧文占2bytes
统称的unicode是向下兼容GB的,因此使用unicode编码的文件在GB编码的终端中可以正常显示中文
但是utf-8由于重新改变编码数据结构,因此并不兼容unicode,因此需要转码解码等操作。
4、Python中的编码规则,转码解码操作
(1)Python默认编码:
Python3.0 默认编码是unicode(也就是代码中的汉字以unicode进行存储)
Python2.0 默认编码是ASCII码
(2)2.0软件使用中文的方式:
#!coding:utf-8
用这个语句告诉Python以下编码按照utf-8进行编码