版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_35774189/article/details/84557386
1、变量名必须以字母开头,可以包含数字和下划线,名称是区分大小写的,变量名不能游空格,可以 用下划线 ( _ ) 把单词分开
2、利用FreqDist寻找文本中最常见的50个词:
第89行 计算whale出现的次数
累积频率图
计算文本中每个词的长度:
fdist.keys() 只有20个不同的元素(说明只有20种不同的词长)
fdist.freq(3) 表示 词长为3的词占比
例子 | 描述 |
fdist=FreqDist(samples) | 创建包含给定样本的频率分布 |
fdist.inc(sample) | 增加样本 |
fdist['monstrous'] | 计数给定样本出现的次数 |
fdist.freq('monstrous') | 给定样本的频率 |
fdist.N() | 样本总数 |
fdist.keys() | 以频率递减顺序排序的样本链表 |
for sample in fdist: | 以频率递减的顺序遍历样本 |
fdist.max() | 数值最大的样本 |
fdist.tabulate() | 绘制频率分布表 |
fdist.plot() | 绘制频率分布图 |
fdist.plot(cumulative=True) | 绘制累积频率分布图 |
fdist1 < fdist2 | 测试样本在fdist1中出现的频率是否小于fdist2 |