词云是我在学文本挖掘时接触到的一个很有意思的可视化方法,用起来总觉得很装逼,但是用Python做要专门打开jupyter运行代码比较麻烦,就找到了专门制作词云的网站(其实这种网站有很多,我就以我用得最多的例子Word Art来说明)
网址如下:
打开之后是这个样子的:
我们用到的主要是三个红圈对应的功能,分别是:词、图片、字体
就是:1、我们要做哪些词的词云? 2、我们的词云要做成什么形状的 3、词云的词是什么样的字体?
点击"import",弹出一个窗口,在这里我们要把我们的词放进去
在excel中选中你想要放进去的某几列复制粘贴即可
形状的话可以选用默认的也可以点击左上角的add自行添加
这个网站默认的字体是英文的,因此我们导入的中文字词会让它难以识别,这是我们要添加自己想要的中文字体(中文字体自己事先去网上下载,把下载后的字体文件像导入图片那样导到fonts里即可)
我这里选用的是微软雅黑
弄完后点击visualize即可
一副词云图就生成了,词云越大代表图中字段出现次数就越多。
词云图可以直观地显示词数多少,但是比如我们现在手头有一份全国各省GDP数值我们在不做热力图的情况下如何把数值大小用词云大小表现出来?
这时我们就要按照数值大小把该省名称对应复制同等倍数
比如:(以下数据均为虚构)
北京 23450
上海 21672
广东 45032
我们不可能真的把北京复制23450遍,那太累了,这时我们可以同等倍数缩小(因为词云体现的只是相对大小,同倍缩放后不改变数值的相对大小):
北京 2.345
上海 2.1672
广东 4.5032
取整后就是
北京 2
上海 2
广东 5
各自复制对应次数就可以
当数据量大复制次数多时,就要使用python来进行快速处理。