python2 and 3 编码解惑

python2文件默认编码为ascii

大家都知道，python2和python3在编码上有所不同。比如python2默认的编码（这里主要是指.py文件）是ascii，也就是在.py写的字符会以ascii编码写到文件，然后文件以ascii编码读取加载到内存（此时如果是中文，则加载到内存后就会产生错乱），原因是ascii只支持一百多个符号或英文字符，并不支持中文字符。那么，如果想正常显示中文要怎么办？

python2在内存里的默认内存ascii，是必须在文件头声明coding为GBK或UTF8，声明之后，python2解释器仅以文件所声明的编码去解释代码，并以此编码加载到内存中，加载后，并不会帮你转换成unicode，意味着，你以utf8声明的文件，加载到内存中后还是utf8，这样在window上就会显示乱码，因为window上默认编码是gbk.而gbk和utf8之前并没有映射关系。

python3文件默认编码为utf8

如，python3的代码执行如下：

解释器找到代码文件，把代码字符串按文件头定义编码（默认UTF8）加载到内存，会自动转成unicode.
把代码字符串按照语法规则进行解释。
所有的变量字符都会以unicode编码声明。

python3里内存的字符默认以unicode，当然了，并不是所有编程语言在内存里默认编码都是unicode。比如python2就不是。

注意，unicode编码表除了规定了字符对应的编码外，还有一个作用是与各种编码的映射关系，也就是如果内存中的字符是unicode，那不同的操作平台上不同的编码，比如window上的默认的GBK，unicode与GBK有映射关系，能根据平台自动转换为平台上的默认编码，也即显示正常。如下是unicode表（http://www.unicode.org/charts/PDF/U4E00.pdf）：

扫描二维码关注公众号，回复： 3632992 查看本文章

因为，针对window系统（默认编码gbk），字符在内存中的编码格式只有以下两种情况时，cmd控制台才不会乱码：

内存中字符串以GBK为编码
内存中字符串以unicode为编码

其实，python3会自动地把文件编码转换为unicode编码，实际上是调用了两个方法：encode,decode:

(文件编码)UTF-8  --> decode(解码，以文件编码UTF8加载到内存) --> unicode
(字符在内存中的编码)unicode  --> encode(编码，以显示终端或保存到磁盘文件指定编码从内存中读取) --> GBK/UTF-8

那么在python2中，以UTF8编码的字符如何能在window 中默认编码为gbk的终端或文件正常显示呢，可以参照上例人为地调用编解码两个方法来实现，其实就是把字符在内存中以unicode编码形式。代码文件：

# -*- coding:UTF-8 -*-
a = '中'
print a  #显示乱码（在windows dos 命令窗口下默认的编码为gbk）

# 人为转换为unicode
aa = a.decode('UTF-8')
print aa  #显示正常  （在windows dos 命令窗口下默认的编码为gbk）

在DOS命令窗口中执行代码文件测试：

D:\codes_py2\luhy\stringutil>python2 myt.py
涓
中

D:\codes_py2\luhy\stringutil>

总结：

py3:
   文件默认编码为UTF-8
   字符串（这里指加载到内存的数据，可以理解为全是字符串）默认为(自动转换)unicode
py2:
   文件默认编码为ascii
   字符串（这里指加载到内存的数据，可以理解为全是字符串）默认为 ascii (如果文件头声明了GBK，那就是GBK)

python3和2字符串的区别：

python2 and 3 编码解惑

猜你喜欢