文档和词项之间的相关度计算汇总 - 代码天地

文档和词项之间的相关度计算汇总

其他 2019-04-05 10:41:00 阅读次数: 0

下面针对《Spark高级数据分析》中的第六章的实验
进行原理上的分析
先来个矩阵 $M_{m·n}$

	word1	word2	word3
doc1
doc2
doc3
doc4
doc5

$M_{m·n}≈U_{m·k}S_{k·k}(V^T)_{k·n}$
P118有一句十分关键的话：
线性代数运算告诉我们重构矩阵中的两个列的余弦相似度
正好等于 $SV^T$ 的相应列的余弦相似度

这里的重构矩阵的意思就是 $M_{m·n}$ 近似后的结果（就是上面等式的右侧）。

	表达式	对应书本
特定词语-每个词语相关度	$V_{n·k}S_{k·k}(V^T)_{k·1}$	6.9节
特定文档-每个文档相关度	$U_{m·k}S_{k·k}U_{1·k}$	6.10节
特定词语-每个文档相关度	$U_{m·k}Sv_t=U_{m·k}S_{k·k}(V^T)_{k·1}$	6.11节
特定文档-每个词语相关度	$u_d^TSV=U_{1·k}S_{k·k}(V^T)_{k·n}$	6.11节
多词项查询	$U_{m·k}S_{k·k}·多词项构成的向量$	6.12节

$(V^T)_{k·1}$ ：表示从 $V_{k·n}$ 中抽取一列,即特定词语
$U_{1·k}$ ：表示从 $U_{m·k}$ 中抽取一行,即特定文档

其中多词项查询相当于：
查询的多个关键词做成词向量，
最后计算该词向量和每个文档的相关度
也就是在模仿前面的“特定词语-每个文档相关度”，
计算的时候把特定词语对应的V中的向量替换成“多个关键词”构成的向量。

猜你喜欢

转载自blog.csdn.net/appleyuchi/article/details/88674874

文档和词项之间的相关度计算汇总

向量之间的相似度和距离计算

文字相关度评测和关键词密度检测

5.词项相似度分析

Java相关技术文档汇总

ElasticSearch相关度计算

NLP︱句子级、词语级以及句子-词语之间相似性（相关名称：文档特征、词特征、词权重）

搜索引擎的检索模型-查询与文档的相关度计算

lsi计算文档相似度

gensim计算文档相似度

基于词向量和卷积神经网络的文本相似度计算

Elastic Search 相关度计算

信息检索导论第六章- 第六章文档评分、词项权重计算及向量空间模型

TF-IDF词项权重计算

Python计算图片之间的相似度

深度学习笔记——Word2vec和Doc2vec应用举例：词和句子的相似度计算

抓取百度相关词 - 简化版

使用spark计算文档相似度

同义词和 DBlink 的相关SQL

nova 命令汇总四 ——计算相关命令

同义词相似度可以怎样计算

常见的距离算法和相似度（相关系数）计算方法

基于word2vec的疾病和手术相关词语的相似度计算

软考高项 : （26）计算题汇总

JUNG 计算图属性，相关度

自然语言处理--基于tf-idf和余弦相似度构建关键词搜索引擎（处理三篇文档）

基于同义词词林的词语间相似度计算

OAuth2.0相关学习文档汇总

Android百度地图相关内容汇总

百度Apollo决策规划模块相关资料汇总

今日推荐

周排行

8种防盗链的方法

php的序列化和反序列化

Java 8：CompletableFuture

Android版本差异适配方案(5.0-9.0)

makedownpad使用

Spring Boot 使用AOP切面实现后台日志管理模块

实战SSM_O2O商铺_44【DES加密】关键配置信息进行DES加密

ACM排行榜说明

【转】SQL重复记录查询

板球和秃子威力那个大

每日归档

更多

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)