python2文件默认编码为ascii
大家都知道,python2和python3在编码上有所不同。比如python2默认的编码(这里主要是指.py文件)是ascii,也就是在.py写的字符会以ascii编码写到文件,然后文件以ascii编码读取加载到内存(此时如果是中文,则加载到内存后就会产生错乱),原因是ascii只支持一百多个符号或英文字符,并不支持中文字符。那么,如果想正常显示中文要怎么办?
python2在内存里的默认内存ascii,是必须在文件头声明coding为GBK或UTF8,声明之后,python2解释器仅以文件所声明的编码去解释代码,并以此编码加载到内存中,加载后,并不会帮你转换成unicode,意味着,你以utf8声明的文件,加载到内存中后还是utf8,这样在window上就会显示乱码,因为window上默认编码是gbk.而gbk和utf8之前并没有映射关系。
python3文件默认编码为utf8
如,python3的代码执行如下:
- 解释器找到代码文件,把代码字符串按文件头定义编码(默认UTF8)加载到内存,会自动转成unicode.
- 把代码字符串按照语法规则 进行解释。
- 所有的变量字符都会以unicode编码声明。
python3里内存的字符默认以unicode,当然了,并不是所有编程语言在内存里默认编码都是unicode。比如python2就不是。
注意,unicode编码表除了规定了字符对应的编码外,还有一个作用是与各种编码的映射关系,也就是如果内存中的字符是unicode,那不同的操作平台上不同的编码,比如window上的默认的GBK,unicode与GBK有映射关系,能根据平台自动转换为平台上的默认编码,也即显示正常。如下是unicode表(http://www.unicode.org/charts/PDF/U4E00.pdf):
因为,针对window系统(默认编码gbk), 字符在内存中的编码格式只有以下两种情况时,cmd控制台才不会乱码:
- 内存中字符串以GBK为编码
- 内存中字符串以unicode为编码
其实,python3会自动地把文件编码转换为unicode编码,实际上是调用了两个方法:encode,decode:
(文件编码)UTF-8 --> decode(解码,以文件编码UTF8加载到内存) --> unicode
(字符在内存中的编码)unicode --> encode(编码,以显示终端或保存到磁盘文件指定编码从内存中读取) --> GBK/UTF-8
那么在python2中,以UTF8编码的字符如何能在window 中默认编码为gbk的终端或文件正常显示呢,可以参照上例人为地调用编解码两个方法来实现,其实就是把字符在内存中以unicode编码形式。代码文件:
# -*- coding:UTF-8 -*-
a = '中'
print a #显示乱码(在windows dos 命令窗口下默认的编码为gbk)
# 人为转换为unicode
aa = a.decode('UTF-8')
print aa #显示正常 (在windows dos 命令窗口下默认的编码为gbk)
在DOS命令窗口中执行代码文件测试:
D:\codes_py2\luhy\stringutil>python2 myt.py
涓
中
D:\codes_py2\luhy\stringutil>
总结:
py3:
文件默认编码为UTF-8
字符串(这里指加载到内存的数据,可以理解为全是字符串)默认为(自动转换)unicode
py2:
文件默认编码为ascii
字符串(这里指加载到内存的数据,可以理解为全是字符串)默认为 ascii (如果文件头声明了GBK,那就是GBK)
python3和2字符串的区别: