对魂器学院贴吧舆论的分析

使用爬虫软件获取魂器学院的最近5个月的贴吧帖子题目及内容阐述。

在这里插入图片描述
然后将数据保存一份至excel,之后用pandas 读入,先对用户分析,将用户编码,获得五个月内有发帖玩家总计1424人,平均一个人发帖4个左右。

在这里插入图片描述
对每个帖子的回复数分析,发现平均每个帖子回复17个左右。

在这里插入图片描述

回复中位数在9,说明大部分帖子回复人数不足10个。其中有个帖子回复数高达8888回复数,查看了一下,是个水楼贴,应该要清洗掉的,不过这边就这么分析吧。

为主题做一张词云图

import jieba
import wordcloud
data=pd.read_excel('data.xlsx')
txt=[]
title=data['标题']
for i in range(5236):
    txt.append(title[i])
s=''.join(str(txt))
s.replace('\.,?/;:[]}{=+-_)(*&^%$@!~`,。、【】}{;:‘’“”》《。》})}','')#清洗文本

清洗之后由于贴吧还有很多乱七八糟的表情无法被全部清理,清理后的样子如下
在这里插入图片描述
还有一些彩虹啥的,于是换了个想法用正则表达式

import re        
result = re.findall(u'[\u4e00-\u9fa5]',s)
ans = ''.join(result) 

在这里插入图片描述
清洗之后就很舒服啦,然后用jieba和wordcloud库完成词云制作。

import jieba
import wordcloud
ls = jieba.lcut(txt)
t = " ".join(ls)
w = wordcloud.WordCloud( font_path = "msyh.ttc",\
width = 1000, height = 700, background_color = "white", \ )
w.generate(t)
w.to_file("001.png")

在这里插入图片描述
使用jieba分词做了一张最高频词的词云,出现最多的是大佬以及怎么两个词,说明整体氛围偏向攻略探讨,不过较低的贴吧用户数可能是因为该游戏还有其他的交流社区,不然的话该游戏应该侧重于推广吸引新用户,同时可以对贴吧用户的进行专项问卷访谈,设置奖励为游戏道具等,获取最新最真实的用户心声,提高游戏的可玩性以及增加用户粘性。

猜你喜欢

转载自blog.csdn.net/lisenby/article/details/108751991