NLP之TF-IDF与BM25

其他 2019-08-04 15:24:43 阅读次数: 0

一术语

TF: Term Frequency,词频；衡量某个指定的词语在某份【文档】中出现的【频率】
IDF: Inverse Document Frequency,逆文档频率；一个词语【普遍重要性】的度量。

二 TD-IDF

传统的TD-IDF
- 词汇word的词频(TF)值
  \[ TF Score = \frac{ 指定词汇word在第i份文档documents[i]中出现的次数 }{ 文档的长度 } \]
- 词汇word的逆文档频率(IDF)值
  \[ IDF Score = log( \frac{ 文档集documents的总数 }{ 指定词word在文档集documents中出现过的文档总数 } ) \]
- 词汇word与某份文档documents[j]的关联度得分(TF-IDF)
  \[ TF-IDF(word | docuements ) = Similarity(word | documents ) \]
  \[ Similarity(word | documents ) = TF Score*IDF Score \]
- 短语sentence与某份文档documents[j]的关联度得分(TF-IDF)
  \[ sentence = [word1,word2,...,wordi,...,wordn] \]
  \[ TF-IDF_{_{sentence}}(word | docuements ) = TF-IDF_{_{word1}} + TF-IDF_{_{word2}} + ... + TF-IDF_{_{wordi}} + ... + TF-IDF_{_{wordn}} \]
早期Lucence版的TF-IDF
\[ TF-IDF(word | docuements ) = Similarity(word | documents ) \]
\[ Similarity(word | documents ) = log( \frac{ 文档集documents的总数 }{ 指定词word在文档集documents中出现过的文档总数 + 1 })*sqrt(TF Score) * (\frac{1}{sqrt(文档documents[j]的长度)}) \]

log(numDocs / (docFreq + 1)) * sqrt(tf) * (1/sqrt(length)) $$

三参考文献

[1] 搜索中的权重度量利器: TF-IDF和BM25

猜你喜欢

转载自www.cnblogs.com/johnnyzen/p/11298273.html

NLP之TF-IDF与BM25

深入理解TF-IDF、BM25算法与BM25变种：揭秘信息检索的核心原理与应用

搜索中的权重度量利器: TF-IDF和BM25

nlp之TF-IDF

NLP ----- TF-IDF

ElasticSearch IDF BM25 函数图像

NLP相似度之tf-idf计算

NLP探究TF-IDF的原理

[nlp] TF-IDF算法介绍

BM25算法

学习笔记--NLP文本相似度之TF-IDF

【NLP】【三】jieba源码分析之关键字提取（TF-IDF/TextRank）

机器学习之TF-IDF介绍

机器学习之TF-IDF

TensorFlow与NLP（TF-IDF：垃圾短信检测）

NLP文本相似度(TF-IDF)

NLP入门（二）探究TF-IDF的原理

【NLP】英文数据预处理___Gensim(tf-idf LDA)

NLP（三）TF-IDF的原理和实践

lucene BM25 实例

BM25算法详解

【TF-IDF介绍】

TF-IDF

tf-idf相关

tf-idf原理

tf-idf的问题

TF-IDF（转）

TF-IDF介绍

TF-IDF小记

【Spark】TF-IDF

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)