作业：中文词频统计与词云生成 - 代码天地

作业：中文词频统计与词云生成

其他 2019-03-25 22:11:26 阅读次数: 0

这个作业的要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822

1. 下载一长篇中文小说。

　　本文将下载《天龙八部》小说第一章并将其为例，展示生成中文词云和词频统计的完整过程。

2. 从文件读取待分析文本。

f = open(u'.txt',encoding='UTF-8').read()

3. 安装并使用jieba进行中文分词。

4. 生成词频统计

在第425行，进行分词，然后将结果进行遍历（426-433行），遍历中，剔除单个字符，每个词语和它所出现的次数写入字典，第434、435行将字典转化为元组所组成的列表，并依据出现次数进行排序，然后遍历列表，取出前10名。

第二段代码（441-445行）是依据权重取出了关键词，可以看出，这章小说，主要讲的就是段誉的事情了，不论是权重还是词频都是他最高。。。

5. 生成词云

#coding:utf-8

import jieba
from wordcloud import WordCloud 

f = open(u'天龙八部.txt','r').read()
s = {}
f = jieba.cut(f)
for w in f:
    if len(w) > 1:
        previous_count = s.get(w,0)
        s[w] = previous_count+1

word = sorted(s.items(),key=lambda (word,count):count, reverse = True)
word = word[1:100]
#print word[:100]
wordcloud = WordCloud(font_path = 'MSYH.TTF').fit_words(word)
import matplotlib.pyplot as plt
plt.imshow(wordcloud) 
plt.axis("off")
plt.show()

运行结果如下：

猜你喜欢

转载自www.cnblogs.com/luengmingbiao/p/10596980.html

作业：中文词频统计与词云生成

中文词频统计与词云生成

jieba （中文词频统计）、collections （字频统计）、WordCloud （词云） py库： jieba （中文词频统计）、collections （字频统计）、WordCloud （词云）

作业——04 中文词频统计

中文词频统计

中文词频统计中文词频统计

python词频统计生成词云

python jieba分词及中文词频统计

大作业+补交作业 python基础综合练习：英文词频统计中文词频统计网络爬虫基础练习获取全部校园新闻

补交作业 python基础综合练习：英文词频统计中文词频统计网络爬虫基础练习获取全部校园新闻

使用Python统计文件中词频，并且生成词云

用jieba库统计文本词频及云词图的生成

使用python读取word统计词频并生成词云

词频统计及词云绘制

【作业】jieba中文词云

英文词频统计

python中文词云生成

Python生成中文词云

中文词频分析

阶段作业1：完整的中英文词频统计

基于jieba库实现中文词频统计

Python实现简单中文词频统计示例

[python] 词云：wordcloud的使用、源码分析、中文词云生成和代码重写

Python生成中文词云图（二）：不可指定词云特定的形状和颜色。

Python生成中文词云图（一）：可指定特定的词云形状和颜色。

完整的英文词频统计

Hadoop综合大作业&补交4次作业：获取全部校园新闻，网络爬虫基础练习，中文词频统计，熟悉常用的Linux操作

jieba库使用和好看的词云用jieba库统计文本词频及云词图的生成

WordArt怎样生成中文词云？

阶段作业1：完整的中英文词频统计+补交上次作业

今日推荐

周排行

AIZU 2224 Save your cats(并查集)

HTTP响应头状态码详解

Python socket编程（2）

MaxCompute Studio使用心得系列7—作业对比

Supervisor安装使用

LeetCode 164. Maximum Gap

mysql面试题: 一张表里面有ID自增主键，当insert了17条记录之后，删除了第15,16,17条记录，再把mysql重启，再insert一条记录，这条记录的ID是18还是15

nutch1.2 DeleteDuplicates IndexMerger 详解

OC - @property与setter,getter方法

SpringBoot @Transactional的rollbackFor属性

每日归档

更多

2024-09-19(0)

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)