基于不同策略的英文单词的词频统计和检索系统实验报告
实验任务
一篇英文文章存储在一个文本文件中,分别基于线性表、二叉排序树和哈希表不同的存储结构,实现单词词频的统计和单词的检索功能。同时计算不同检索策略下的ASL,通过比较ASL的大小,对不同检索策略的时间性能做出相应的比较分析。具体内容如下。
1.一篇包括标点符号的英文文章存储在文本文件Infile.txt中,假设文件中单词的个数最多不超过5000个。从该文件中读取英文单词,过滤掉所有的标点。
2.分别基于线性表、二叉排序树和哈希表不同的存储结构,实现单词词频的统计和单词的检索功能。其中,线性表采用顺序表和链表两种不同的存储结构分别实现顺序查找,同时实现基于顺序表的折半查找;哈希表分别实现基于开放地址法的哈希查找和基于链地址法的哈希查找。因此,总计实现6种不同的检索策略。
3.不论采取哪种检索策略,实现的功能均相同。