摘要
无监督学习文本聚类技术是自然语言处理领域的一个重要分支,在实践中被广泛应用。为使该技术对文本聚类技术产生引领作用,首先对文本聚类流程、聚类评价指标及数据集进行详细阐述,然后对文本聚类算法进行分类说明和比较,最后对文本聚类技术进行总结与展望。通过对当前文本聚类技术的归纳总结,融合深度学习方法后的最新研究成果,以期为深入研究该领域提供参考与借鉴。
0 引言
目前,Twitter、雅虎、新浪微博、腾讯新闻、学习强国等互联网应用广泛普及,文本数量激增,发掘文本中有价值的信息对研究用户喜好具有重要意义。处理文本常用的技术包括自动化文本分类和聚类。其中,文本分类属于有监督学习方法,需要对文本进行标记,同时要对语料库模型进行训练;文本聚类(Text Clustering,TC)则属于无监督学习方法,无需标记文本,只需将