Lucene系列三之相关度排名 - 代码天地

Lucene系列三之相关度排名

其他 2018-10-19 08:51:14 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/itsoftchenfei/article/details/83109730

前面已经对Lucene的基本内容有一个相关的了解，特别是反向索引，接下来将重点介绍下相关度排名。

1. 什么是相关度排名

直观理解搜索结果精准由高到低

如：要查询苍老师、tony、火锅有关的新闻：
含有三个关键字（相关度最高）的新闻排前面，含两个关键字（相关度次之）排次之，含一个关键字的排次次之。

当然，这是由一个算法完成的。

2. 如何设计相关性模型

利用出现次数来建立模型

规则1：统计出现次数，根据次数从高到低排

{{1,5},{5,3},{12,1},{8,1}}：文章1出现5次，文章5出现3次，文章12出现1次，文章8出现1次。问题：标题中出现苍老师，与新闻的内容中出现苍老师，哪个是专门写苍老师的相关度高些？

规则2：加入权重，标题权重10，内容权重1，计算权重得分，按高-低排序

{{1,23},{12,10},{5,3},{8,1}}，总结：利用出现次数来建立模型这个相关性模型很简单。有时排序会不是很准确。

复杂的相关性计算模型有：

TF/IDF和字段长度准则(长度越长，相关性越低)，即检索词频率【检索词在该字段出现的频率】/反向文档频率【检索词在索引中出现的频率】，具体参参阅es-search
向量空间模型
贝叶斯概率模型，如：BM25

搜索引擎中会提供一种、或多种实现供选择使用，电商网站中的搜索相关性计算会考虑更多，更复杂。

猜你喜欢

转载自blog.csdn.net/itsoftchenfei/article/details/83109730

Lucene系列三之相关度排名

Lucene08-Lucene的相关度排序

Lucene相关度排序的调整

11Lucene相关度排序

SaltStack系列（三）之state相关介绍

Lucene底层储存结构、优化和相关度排序

Lucene相关

Lucene系列二之反向索引

Lucene系列一之全文检索

Lucene 源码分析之倒排索引（三）

Lucene系列二：Lucene（Lucene介绍、Lucene架构、Lucene集成）

lucene4.7（3）全文检索之相关类

Lucene系列三：Lucene分词器详解、实现自己的一个分词器

C#学习相关系列之Linq用法---group和join相关用法（三）

mahout系列之-----相似度

[Elasticsearch] 控制相关度 (二) - Lucene中的PSF(Practical Scoring Function)与查询期间提升

Elasticsearch 控制相关度 (二) - Lucene中的PSF(Practical Scoring Function)与查询期间提升

lucene 相关收藏

lucene相关总结

Lucene BooleanQuery相关算法

Lucene&Solr框架之第三篇

C#学习相关系列之数据类型类的三大特性（二）

ElasticSearch之控制相关度原理讲解

lucene搜索之拼写检查和相似度查询提示（spellcheck）

百度等三平台回应维修企业“小病大修”，均回避“付费排名”

Lucene4.3开发之第三步之温故知新(三)

lucene生成索引相关文件

lucene初探（三）：lucene详解及流程介绍

百度排名的原理

【ElasticSearch从入门到放弃系列三】Lucene的基本概念和使用

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)