基于二分搜索树实现集合

文章目录

集合
定义接口
实现集合类
集合的应用：词汇量统计

1.文件操作类
2.Main.java
3.测试结果

写在最后

集合

集合是承载元素的容器，元素只能存在一次，可以快速去重。它是更高层的数据结构。

典型的应用场景：

客户统计：计算机IP访问，同一IP不同时间的访问记做同一客户的访问，关注多少不同IP访问网站，或今天较昨天增加多少了新IP访问了网站。
词汇量统计：一本书使用的词汇量是多少。

定义接口

定义集合的接口Set.java，使它支持泛型。

public interface Set<E> {
    void add(E e); // 添加元素 不能添加重复元素

    void remove(E e);  // 删除元素

    boolean contains(E e); // 查看集合是否包含某个元素

    int getSize();  // 获得集合元素个数

    boolean isEmpty(); // 判断集合是否为空
}

实现集合类

二分搜索树本身可以实现集合的所有操作，所以只需要调用二分搜索树中的相应方法即可。这里借用的BST.java是我的前一篇学习笔记《使用递归底层实现二分搜索树》中所实现的类。完整的类在第九章节。
只用到了二分搜索树的添加元素，删除元素，包含元素，以及大小和是否为空5个方法。需要注意的是在添加操作中，集合中的元素是不能重复的，由实现的二分搜索树无法添加重复元素，在集合类BSTSet.java中可以直接调用add()方法。

public class BSTSet<E extends Comparable<E>> implements Set<E> {
    private BST<E> bst;

    public BSTSet() {
        bst = new BST<>();
    }

    @Override
    public int getSize() {
        return bst.getSize();
    }

    @Override
    public boolean isEmpty() {
        return bst.isEmpty();
    }

    @Override
    public boolean contains(E e) {
        return bst.contains(e);
    }

    @Override
    public void add(E e) {
        bst.add(e);
    }

    @Override
    public void remove(E e) {
        bst.remove(e);
    }

}

集合的应用：词汇量统计

创建一个单独的文件操作类对需要进行统计的文本进行分词操作，将他们存放进一个数组中来计算文本中的单词数量，遍历数组存放进集合，计算集合大小即是文本的词汇量数量。

1.文件操作类

FileOperation.java用于对文本进行分词，不考虑单词的形式，将同一个单词的不同形态归类为不同的单词进行词汇量统计测试。

import java.io.FileInputStream;
import java.util.ArrayList;
import java.util.Scanner;
import java.util.Locale;
import java.io.File;
import java.io.BufferedInputStream;
import java.io.IOException;

// 文件相关操作
public class FileOperation {

    // 读取文件名称为filename中的内容，并将其中包含的所有词语放进words中
    public static boolean readFile(String filename, ArrayList<String> words){

        if (filename == null || words == null){
            System.out.println("filename is null or words is null");
            return false;
        }

        // 文件读取
        Scanner scanner;

        try {
            File file = new File(filename);
            if(file.exists()){
                FileInputStream fis = new FileInputStream(file);
                scanner = new Scanner(new BufferedInputStream(fis), "UTF-8");
                scanner.useLocale(Locale.ENGLISH);
            }
            else
                return false;
        }
        catch(IOException ioe){
            System.out.println("Cannot open " + filename);
            return false;
        }

        // 简单分词
        // 这个分词方式相对简陋, 没有考虑很多文本处理中的特殊问题
        // 在这里只做demo展示用
        if (scanner.hasNextLine()) {

            String contents = scanner.useDelimiter("\\A").next();

            int start = firstCharacterIndex(contents, 0);
            for (int i = start + 1; i <= contents.length(); )
                if (i == contents.length() || !Character.isLetter(contents.charAt(i))) {
                    String word = contents.substring(start, i).toLowerCase();
                    words.add(word);
                    start = firstCharacterIndex(contents, i);
                    i = start + 1;
                } else
                    i++;
        }

        return true;
    }

    // 寻找字符串s中，从start的位置开始的第一个字母字符的位置
    private static int firstCharacterIndex(String s, int start){

        for( int i = start ; i < s.length() ; i ++ )
            if( Character.isLetter(s.charAt(i)) )
                return i;
        return s.length();
    }
}

2.Main.java

FileOperation的readFile是有返回值的，如果发生错误，为方便查看错误原因将它整体放在if结构中

import java.util.ArrayList;

public class Main {
    public static void main(String[] args) {
        System.out.println("Pride and Prejudice");

        ArrayList<String> words1 = new ArrayList<>();
        // 调用文件类将傲慢与偏见的文本单词都存进words1中
        if (FileOperation.readFile("pride-and-prejudice.txt", words1)) {
            // 打印这本书一共有多少个单词
            System.out.println("Total words:" + words1.size());

            BSTSet<String> set1 = new BSTSet<>();
            for (String words : words1)
                set1.add(words); // 底层的二分搜索树忽略重复，所以重复单词不会添加进集合中
            System.out.println("Total different words:" + set1.getSize());
        }

        System.out.println(); // 换行

        System.out.println("A Tale Of Two Cities");
        ArrayList<String> words2 = new ArrayList<>();
        // 调用文件类将双城记的文本单词都存进words1中
        if (FileOperation.readFile("a-tale-of-two-cities.txt", words2)) {
            // 打印这本书一共有多少个单词
            System.out.println("Total words:" + words2.size());

            BSTSet<String> set2 = new BSTSet<>();
            for (String words : words2)
                set2.add(words); // 底层的二分搜索树忽略重复，所以重复单词不会添加进集合中
            System.out.println("Total different words:" + set2.getSize());
        }
    }
}

3.测试结果

Pride and Prejudice
Total words:125901
Total different words:6530

A Tale Of Two Cities
Total words:141489
Total different words:9944

写在最后

如果代码有还没有看懂的或者我写错的地方，欢迎评论，我们一起学习讨论，共同进步。
推荐学习地址：
liuyubobobo老师的《玩转数据结构》：https://coding.imooc.com/class/207.html
最后，祝自己早日咸鱼翻身，拿到心仪的Offer，冲呀！