本文利用JDK中的BufferedReader和BufferedWriter实现将任何编码方式的txt文件以UTF-8编码方式转存。
UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码,由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码Unicode字符。用在网页上可以统一页面显示中文简体繁体及其它语言(如英文,日文,韩文)。UTF-8最大的优势是可以避免乱码问题。
本方法首先判断txt文件的编码方式,然后按照其编码方式按行读取,再按行以UTF-8的编码写入。其中借助EncodingDetect类检测txt文件的编码方式。
/** * * @param inputFileUrl * @param outputFileUrl * @throws IOException */ public static void saveAsUTF8(String inputFileUrl, String outputFileUrl) throws IOException { String inputFileEncode = EncodingDetect.getJavaEncode(inputFileUrl); System.out.println("inputFileEncode===" + inputFileEncode); BufferedReader bufferedReader = new BufferedReader( new InputStreamReader(new FileInputStream(inputFileUrl), inputFileEncode)); BufferedWriter bufferedWriter = new BufferedWriter( new OutputStreamWriter(new FileOutputStream(outputFileUrl), "UTF-8")); String line; while ((line = bufferedReader.readLine()) != null) { bufferedWriter.write(line + "\r\n"); } bufferedWriter.close(); bufferedReader.close(); String outputFileEncode = EncodingDetect.getJavaEncode(outputFileUrl); System.out.println("outputFileEncode===" + outputFileEncode); System.out.println("txt文件格式转换完成"); }
测试代码:
String inputFileUrl = "C:\\Users\\Administrator\\Desktop\\傲慢与偏见.txt"; String outputFileUrl = "C:\\Users\\Administrator\\Desktop\\utf8\\傲慢与偏见.txt"; saveAsUTF8(inputFileUrl, outputFileUrl);