什么是LDA?(latent dirichlet allocation)
- 是一种无监督的贝叶斯模型
- 是一种主题模型;
- 是一种典型的词袋模型;
什么是贝叶斯模型?(事件θ和y同时发生的概率=θ发生的概率*在θ发生的情况下y发生的概率=y发生的概率*在y发生的情况下θ发生的概率)
- 用概率作为可信度
- 每次有新数据,就更新可信度;
- 需要一个模型解释数据的生成;
要想理解LDA,分为以下五个步骤:
- 一个函数:gamma函数
- 四个分布:二项分布、多项分布、beta分布、dirichlet分布
- 一个概念和一个理念:共轭先验和贝叶斯框架;
- 两个模型:pLSA、LDA
- 一个采样:Gibbs采样
(1)gamma函数