自然语言处理期末复习（6）话题模型 - 代码天地

自然语言处理期末复习（6）话题模型

其他 2018-09-26 20:07:11 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/Kangyucheng/article/details/80728616

一、LAS

1.向量空间模型通过计算文档向量间的相似度来衡量两个文档之间的相关性，常用的相似度为(夹角)余弦相似度。

2.LSA的核心在于将秩r的词项-文档矩阵C进行SVD分解，并寻求词项-文档矩阵的k秩逼近C_k此时我们可以说，在进行潜在语义分析之前，文档被隐含表示成r维空间中的向量，而在潜在语义分析之后，文档被表示为k维空间中的向量，也就是潜在语义空间中的向量，向量的维数缩减为k维。

维数k可以被解释为隐含在文档集合中的话题数量，因此LSA可以被视作一种话题模型

3. LSA要点:

(1) 基于词(项)-文档矩阵归纳语义信息

(2) 基于维数缩减归纳语义信息

(3) 文档和词(项)被视作欧式空间中的点进行计算

二、概率话题模型

1. 混合模型(mixture model)，分布表示为若干部件分布按照一定的比例进行组合。

(1) 文档是关于话题的分布, 不同文档拥有不同的话题比例p(z)。

(2) 话题是定义在词表上的概率分布p(w|z)，不同的话题是定义在词表上的不同分布，与LSA不同，话题有着直观的物理解释。

话题模型是生成模型,文档是话题模型规定的概率过程的产物

扫描二维码关注公众号，回复： 3365113 查看本文章

(1) 对每一个文档，首先选择一个话题分布p(z)

(2) 对文档中的每一个词位，按照话题分布p(z)选择一个话题

(3) 按照话题-词分布p(w|z)选择一个词

• 在话题模型中，文档中每个词都对应着一个隐含的话题，这些隐含的话题可以通过统计推断的技术从大量的文档集合中提取得到。

2.pLSA是一种概率话题模型，LDA可视作是对pLSA的改进

– 文档视作话题的混合模型

– 话题视作词的不同分布

猜你喜欢

转载自blog.csdn.net/Kangyucheng/article/details/80728616

自然语言处理期末复习（6）话题模型

自然语言处理期末复习（1）n元模型

自然语言处理期末复习（3）-（5）模型与句法分析

自然语言处理期末复习（2）中文分词

《自然语言处理》复习

自然语言处理期末复习（7）平行文本与机器翻译

自然语言处理复习笔记 1

自然语言处理复习笔记 2

自然语言话题分析-从NMF矩阵分解模型说起

自然语言处理——（一）语言模型

【自然语言处理】语言模型

自然语言处理(三)语言模型

自然语言处理---语言模型

自然语言处理——语言模型

自然语言处理——语言模型(一)

自然语言处理--信息模型

自然语言处理-主题模型

自然语言处理——CBOW模型

自然语言处理--序列标注模型

自然语言处理（三）】主题模型

自然语言处理----词袋模型

自然语言处理——序列模型

自然语言处理6 -- 情感分析

自然语言处理从入门到应用——自然语言处理的语言模型（Language Model，LM）

自然语言处理：文本预处理、语言模型、RNN

自然语言处理

自然语言处理①

【科软课程NLP】自然语言处理复习

【自然语言处理】【大模型】DeepMind的大模型Gopher

自然语言处理（二 RNN语言模型）

今日推荐

周排行

AIZU 2224 Save your cats(并查集)

HTTP响应头状态码详解

Python socket编程（2）

MaxCompute Studio使用心得系列7—作业对比

Supervisor安装使用

LeetCode 164. Maximum Gap

mysql面试题: 一张表里面有ID自增主键，当insert了17条记录之后，删除了第15,16,17条记录，再把mysql重启，再insert一条记录，这条记录的ID是18还是15

nutch1.2 DeleteDuplicates IndexMerger 详解

OC - @property与setter,getter方法

SpringBoot @Transactional的rollbackFor属性

每日归档

更多

2024-09-19(0)

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)