6.给一篇文章如何统计词频
词频统计
词频统计是指统计文本中每个词出现的次数。词频统计可以用于文本分析、自然语言处理等领域。
手动统计
手动统计是指将文本中的每个词都统计一遍,并记录出现的次数。这种方法简单易行,但效率较低。
使用工具统计
使用工具统计是指使用专门的词频统计工具,可以快速统计文本中的词频。
Java 实现
Java 中可以使用以下方法来实现词频统计:
- 使用正则表达式
正则表达式可以用于分割文本中的单词,然后使用计数器记录每个词出现的次数。
Java
import java.util.regex.Pattern;
public class WordCount {
public static void main(String[] args) throws Exception {
String text = "今天天气很好,我去公园散步了。在公园里,我看到了许多花,也看到了许多小朋友在玩耍。";
// 使用正则表达式分割文本中的单词
Pattern pattern = Pattern.compile("\\W+");
String[] words = pattern.split(text);
// 使用计数器记录每个词出现的次数
Map<String, Integer> wordCounts = new HashMap<>();
for (String word : words) {
if (word