做一个词频统计程序,该程序具有以下功能
基本要求:
(1)可导入任意英文文本文件
(2)统计该英文文件中单词数和各单词出现的频率(次数),并能将单词按字典顺序输出。
(3)将单词及频率写入文件。
/**
*author by daisy
*/
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.List;
import java.util.Map;
import java.util.Set;
import java.util.SortedMap;
import java.util.TreeMap;
public class WordFrequencyCount {
public static void main(String[] args) throws IOException {
BufferedReader bufferedReader = new BufferedReader(new FileReader("E:/text.txt"));
BufferedWriter bufferedWriter = new BufferedWriter(new FileWriter("E:/out.txt"));
String s;
while ((s = bufferedReader.readLine()) != null) {
//通过键值对的方式去分别存储单词和出现的次数
Map<String, Integer> map = new TreeMap<String, Integer>();
//创建一个words数组,将split分割的字符串存入数组
String[] words = s.split("[【】、.。,\"!--;:?\'\\] ]");
for (int i = 0; i < words.length; i++) {
String key = words[i].toLowerCase();//将所有单词转化为小写
if (key.length() > 0) {
//用containsKey判断map集合对象中是否包含某个字符串
if (!map.containsKey(key)) {//如果不包括说明第一次出现,则给频率值赋1;
map.put(key, 1);
} else {// 如果不是第一次出现,就把value值++,那么value值是多少就是出现了几次
int value = map.get(key);//用get(key)获取对应的value值
value++;
map.put(key, value);
}
}
}
//利用TreeMap实现Comparator接口
Comparator<Map.Entry<String, Integer>> valueComparator = new Comparator<Map.Entry<String,Integer>>() {
public int compare(Map.Entry<String, Integer> o1,Map.Entry<String, Integer> o2) {
return o1.getKey().compareTo(o2.getKey());//降序排序
}
};
//map转换成list进行排序,Entry是Map中的一个静态内部类,用来表示Map中的每个键值对
//map.EntrySet(),实现了Set接口,里面存放的是键值对.
List<Map.Entry<String, Integer>> list = new ArrayList<Map.Entry<String,Integer>>(map.entrySet());
// 排序
Collections.sort(list,valueComparator);
System.out.println("-----------------按字典顺序排序如下---------------");
for (Map.Entry<String, Integer> entry : list) {
System.out.println(entry.getKey() + "----" + entry.getValue());
bufferedWriter.write(entry.getKey()+"----"+entry.getValue()+"\r\n");
}
}
bufferedWriter.newLine();
// 关闭输入输出流
bufferedReader.close();
bufferedWriter.close();
}
}