python文件编码问题

今天由于用python写脚本时,读取txt文件出现问题,查了半天,由此出这贴

注意:windows里的Unicode不是指Unicode字符集,而是指文件编码格式utf-16, 关于字符集,请自行百度

总结涉及兼容性考量时,不要用记事本,用专业的文本编辑器保存为不带 BOM 的 UTF-8。 

ANSI编码:

    即当前操作系统使用的编码, 可在cmd下用chcp命令查看,活动页936为gbk编码, 简体中文
    GBK 等遗留编码最麻烦,所以除非你知道自己在干什么否则不要再用了。
    
UTF-8编码:
UTF-8 本来是兼容性最好的编码但 Windows 偏要加 BOM 于是经常出问题。
读取有BOM的UTF-8编码文件,open方法传入参数:encoding = 'utf-8-sig'


UTF-16
windows所谓的「Unicode」指的是带有 BOM 的小端序 UTF-16。而不是说字符集Unicode,搞清字符集与编码格式的区别
UTF-16 理论上其实很好,字节序也标明了,但 UTF-16 毕竟不常用


python3读取TXT文件:


try:
    with open(fileName, 'r', encoding = 'utf-8') as fr:
        fr.read()
except Exception:
    with open(fileName, 'r', encoding = 'gbk') as fr:
         fr.read()

可用文本文件打开txt文件,然后另存为, 来选择格式,第一个显示的即当前文件编码格式


顺便提一下,python自带转换编码的两个函数

encode():unicode→→→其他编码的字符串

decode():其他→→→unicode


参考资料:

https://www.zhihu.com/question/20650946

猜你喜欢

转载自blog.csdn.net/ljt735029684/article/details/80403041