评论分析的思考

版权声明:本文为博主原创文章,转载请注明出处。 https://blog.csdn.net/qq_32768743/article/details/89716115

数据来源

首先是数据来源,如果没有现存的数据库,就需要写爬虫去爬
java/kotlin可用使用jsoup,配合生产者-消费者模型,优化数据库插入

分词

我开始没把分词当回事,想着不就是用jieba等跑一下就行了么?随着自己慢慢调词云图,发现构建相关业务的词典也非常重要

stopwords

一些无意义的词,非常的烦,网上找到的一些词库往往不全,需要再手动调

词云图

词云图真是一个巨大的体力活,需要不断的调,不断的删掉不想出现的词
除了找高频词,还需要解释高频词
出现意思一样的词语,还要合并

后面慢慢再补充,感觉是个大坑

参考:

猜你喜欢

转载自blog.csdn.net/qq_32768743/article/details/89716115