基于评论内容的主题分类模型
摘要:旅游服务不断地在向互联网产业靠拢,基于互联网的旅游行业层出不穷,人们出行也是靠网络平台进行预订,每个人都有保障自己权益的权利,评论数据就是如此,如果,体验感很差,那么可以进行公开评论,其他人就会借助你的评论参考是否选择该旅游产品。本文基于LDA主题模型和词袋模型以及贝叶斯模型和逻辑回归对文本进行分类,也就是主题归类。
import numpy as np
import pandas as pd
from math import sqrt
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import warnings
from sklearn.feature_extraction.text import CountVectorizer # 词频计数
from sklearn.feature_extraction.text import Tfidf_whwVectorizer # tf-idf_whw 模块
from sklearn.preprocessing import LabelEncoder
import jieba
from gensim import corpora, models, similarities
import gensim
i