今天由于用python写脚本时,读取txt文件出现问题,查了半天,由此出这贴
注意:windows里的Unicode不是指Unicode字符集,而是指文件编码格式utf-16, 关于字符集,请自行百度
总结:涉及兼容性考量时,不要用记事本,用专业的文本编辑器保存为不带 BOM 的 UTF-8。
ANSI编码:
即当前操作系统使用的编码, 可在cmd下用chcp命令查看,活动页936为gbk编码, 简体中文
GBK 等遗留编码最麻烦,所以除非你知道自己在干什么否则不要再用了。
UTF-8编码:
UTF-8 本来是兼容性最好的编码但 Windows 偏要加 BOM 于是经常出问题。
读取有BOM的UTF-8编码文件,open方法传入参数:encoding = 'utf-8-sig'
UTF-16
windows所谓的「Unicode」指的是带有 BOM 的小端序 UTF-16。而不是说字符集Unicode,搞清字符集与编码格式的区别
UTF-16 理论上其实很好,字节序也标明了,但 UTF-16 毕竟不常用
python3读取TXT文件:
try: with open(fileName, 'r', encoding = 'utf-8') as fr: fr.read() except Exception: with open(fileName, 'r', encoding = 'gbk') as fr: fr.read()
可用文本文件打开txt文件,然后另存为, 来选择格式,第一个显示的即当前文件编码格式
顺便提一下,python自带转换编码的两个函数
encode():unicode→→→其他编码的字符串
decode():其他→→→unicode
参考资料:
https://www.zhihu.com/question/20650946