LDA的研究点

LDA研究点

参考链接：点击这里
经典的LDA主题模型实现了文本的软聚类的工作，将文档转化为基于主题的数值向量，每个维度上的主题概率取值就是对特定主题的聚类中心的隶属度。由于LDA主题模型提出较早，所以作为基础模型有了很多改进和创新，技术上总结下来有以下几个方面：

短文本的处理和优化
考虑主题随时间变化的情况
考虑按照时间排序的文章之间在主题分布上有连贯性
考虑主题之间存在相关性
Dirichlet 先验非均匀的情况
根据实际应用附加外部假设，优化模型。如：(1)每个句子的主题保持一致；(2)每个段落的主题保持一致；(3)考虑文章标题优化LDA的结果；(4)长文本内部主题分布的连续变化。

在应用方面也有很多创新：

（一）、 和深度学习的结合：主题模型的分布结果能够作为输入参数接入已有的深度学习模型做预测？例如根据新闻的主题分布预测股票指数（金融应用—>证券市场估值的影响）。
（二）、挖掘文本特征的潜在语义：对词汇、词组进行软聚类‘例如，在情感分析任务中，对在线评论的内容构建LDA主题模型，挖掘用户评论的aspect,并找到与之对应的评价词。

总之，LDA的坑很多，但是个人认为，LDA的价值不是在技术本身，而是在应用场景，未来在应用场景的创新空间远比模型的空间要大！

找到一个场景，分析具体的问题，针对上面提到的若干点找出这个场景的特殊性，思考：需要在上面哪个方面进行改善模型，然后提出模型，解决模型以及具体的问题，就是一篇很好地论文了。

切记！LDA不适合短文本！具体的可以参见这里

	该文后续还会继续更新....

SmileAda

发布了115 篇原创文章 · 获赞 132 · 访问量 22万+

私信关注

LDA研究点

猜你喜欢