当我们将数据从MongoDB数据库中导出为CSV文件时,使用Excel打开会显示为乱码,如图:
这是由于MongoDB导出的CSV文件默认都是utf-8格式的数据,而我们的Excel打开文件的编码方式时ANSI格式的,也就是说不能够识别我们的汉字,如果想要在Excel中查看我们的数据,可以按照如下方法:
- 新建一个excel文件,在数据栏点击自文本导入数据
- 导入文件,在文件原格式选择"utf-8",点击下一步
- 接下来点击下一步,去掉默认的tab选项,选择逗号作为分隔符,点击下一步,点击完成
- 这样子就可以在Excel中编辑我们的数据了,另存为csv格式就可以了
但是实际上Excel只是将数据转化为ANSI格式显示,当我们使用pandas打开还是会显示错误
经过查询发现是utf-8并没有包含所有的汉字,会存在一些错误,其实只要是国内的网站,我们使用gbk作为我们文件的打开方式就不会出现乱码,因为gbk是中国人创造的,专门针对汉字的编码格式。
同时也可以使用GB18030编码替代,因为18030包括了gbk,是gbk的扩充版,它包含了所有的汉字,包括少数民族的文字,但大多数情况下使用gbk还是可以解决国内网站的一些编码问题