文本数据可视化
本文所做的数据的数据可视化实现基于python 3.9.4,需安装pyecharts等依赖库,可通过下述命令完成。
pip install -v pyecharts
词云图
又称文字云,是文本数据的视觉表示,有词汇组成类似云的彩色图形,用于展示大量文本数据。每个词的重要性以字体大小或者颜色表示
场景:适用于描述网站上的关键字(即标签),或可视化自由格式文本,可以对比文字的重要程度,其本质是点图,是在相应坐标点绘制特定样式的文字结果
优点:
-
可以快速感知最突出的文字,或区别权重不同的文字
-
可以显示大量文本
缺点:
-
不适合展现数据太少的数据集
-
不适合展示区分度不大的数据,即无重点关键词
类似图表:点图、柱图
示例
import random
from pyecharts import options
from pyecharts.charts import WordCloud
songs = [
u'破晓',
u'兰因絮果',
u'巾帼',
u'花腰带',
u'天元',
u'问情',
u'闹海',
u'风筝杀手',
u'英雄的黎明',
u'古龙群侠传',
u'红豆词',
u'七世劫',
u'Adieu',
u'沧海若平生',
u'陌路之人',
u'波月十三年',
u'和垓下歌',
u'日暮归途'
]
words = [(song, random.randint(999, 9999)) for song in songs]
c = (
WordCloud()
.add(series_name='Songs',
data_pair=words,
word_size_range=[16, 64],
# the shape can chose "cardioid", "diamond",
# "triangle-forward", "triangle", "pentagon", "star"
shape='star'
# use the mask_imnage option to set world cloud background
# mask_image='backgroud.jpg'
)
.set_global_opts(
title_opts=options.TitleOpts(
pos_left='40%',
title=u'歌曲排名',
title_textstyle_opts=options.TextStyleOpts(font_size=33)
),
tooltip_opts=options.TooltipOpts(is_show=True),
)
)
c.render('Songs.html')