Python-英文小说词频统计（傲慢与偏见） - 代码天地

Python-英文小说词频统计（傲慢与偏见）

其他 2018-09-10 14:04:02 阅读次数: 0

版权声明：一起学习啊 https://blog.csdn.net/q1694222672/article/details/82013061

首先下载英文原版小说，TXT格式，内容如下

这里写图片描述

格式非UTF-8，是Unicode格式的

英文每个单词之间都有空格，所以不需要进行分词，可以直接进行词频统计

def get_text():
    f = open('傲慢与偏见.txt','r',encoding='unicode_escape')
    text = f.read().lower()
    for i in '!@#$%^&*()_¯+-;:`~\'"<>=./?,':
        text = text.replace(i,' ')
    return text.split()

ls = get_text()
counts = {}
print(len(ls))
for i in ls:
    counts[i] = counts.get(i,0) + 1

iteams = list(counts.items())
print(iteams)
iteams.sort(key=lambda x:x[1],reverse=True)

for i in iteams[0:10]:
    print(i)

结果不便粘贴，所以截图表示

这里写图片描述

需要做的是，以Unicode格式打开文件，全部转换为小写，替换特殊字符和符号为空格，使用空格将这个大的字符串分隔开，打印列表长度，发现有12万多个单词，而Python瞬间计算出来，可能和四核处理器有关吧。统计词频使用字典，遍历列表，然后将得到的字典转换为列表，使用每个元素的第二个子元素为判断依据进行排序，由大到小，输出前10的结果

发现Python对于字符串的处理能力确实很强，这要是用C，考虑的就多了

猜你喜欢

转载自blog.csdn.net/q1694222672/article/details/82013061

Python-英文小说词频统计（傲慢与偏见）

英文小说词频统计

傲慢与偏见中英版

业务与系统的傲慢与偏见

jieba库小说词频统计

《傲慢与偏见》的读书笔记与读后感作文2400字

Gartner研究副总裁：人工智能的五点傲慢与偏见

傲慢与偏见：程序员非科班出身就得不到重用？

人类本性都有傲慢与偏见，那么人工智能会有偏见吗？

云计算的“傲慢”与“偏见”

python词频统计_英文

Python-文本词频统计

python英文与中文的词频统计

Python-统计值计算、词频统计

英文词频统计

Python英文文本词频统计——读取英文文本进行词频统计并输出

【Python】Tips: Python语言中，Hamlet英文词频统计

组合数据类型，英文词频统计 python

Python小程序：文本词频统计（英文+中文）

【python】英文文本分词词频统计

Python实现英文词频统计：以hamlet为例

python入门小程序：英文词频统计

python简单易懂英文词频词汇统计

完整的英文词频统计

英文单词词频统计

Python文本词频统计

python词频统计

python实现词频统计

Python 词频统计

Python 简易词频统计

今日推荐

周排行

AIZU 2224 Save your cats(并查集)

HTTP响应头状态码详解

Python socket编程（2）

MaxCompute Studio使用心得系列7—作业对比

Supervisor安装使用

LeetCode 164. Maximum Gap

mysql面试题: 一张表里面有ID自增主键，当insert了17条记录之后，删除了第15,16,17条记录，再把mysql重启，再insert一条记录，这条记录的ID是18还是15

nutch1.2 DeleteDuplicates IndexMerger 详解

OC - @property与setter,getter方法

SpringBoot @Transactional的rollbackFor属性

每日归档

更多

2024-09-19(0)

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)