方法一:
直接引入sys,设置全局编码,有时候不太好用。
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
方法二:
读取文件到时候,decode设置一下编码,有时候不太好用。
with open (D:/test.html', 'rb') as f:
html = f.read ()
html = html.decode ("utf-8")
方法三:
引入chardet,根据文件的具体编码进行解析,比较推荐这个,但是稍微有点耗时。
import chardet
with open (D:/test.html', 'rb') as f:
html = f.read ()
dec = chardet.detect(html2)
html2 = html2.decode(dec["encoding"], 'ignore')