python文件编码问题

今天由于用python写脚本时，读取txt文件出现问题，查了半天，由此出这贴

注意：windows里的Unicode不是指Unicode字符集，而是指文件编码格式utf-16，关于字符集，请自行百度

总结：涉及兼容性考量时，不要用记事本，用专业的文本编辑器保存为不带 BOM 的 UTF-8。

ANSI编码：
即当前操作系统使用的编码，可在cmd下用chcp命令查看，活动页936为gbk编码，简体中文
GBK 等遗留编码最麻烦，所以除非你知道自己在干什么否则不要再用了。

UTF-8编码：
UTF-8 本来是兼容性最好的编码但 Windows 偏要加 BOM 于是经常出问题。
读取有BOM的UTF-8编码文件，open方法传入参数：encoding = 'utf-8-sig'

UTF-16
windows所谓的「Unicode」指的是带有 BOM 的小端序 UTF-16。而不是说字符集Unicode，搞清字符集与编码格式的区别
UTF-16 理论上其实很好，字节序也标明了，但 UTF-16 毕竟不常用

python3读取TXT文件:

try:
    with open(fileName, 'r', encoding = 'utf-8') as fr:
        fr.read()
except Exception:
    with open(fileName, 'r', encoding = 'gbk') as fr:
         fr.read()

可用文本文件打开txt文件，然后另存为，来选择格式，第一个显示的即当前文件编码格式

顺便提一下，python自带转换编码的两个函数

encode（）：unicode→→→其他编码的字符串

decode（）：其他→→→unicode

参考资料：

https://www.zhihu.com/question/20650946

python文件编码问题

猜你喜欢