检索式模型介绍(一)

检索式模型介绍(一)

  • 这个系列的文章主要是介绍一些可以作为文本匹配工作的一些模型,有些是比较基础的算法,例如bm25。有些模型是基于深度学习的架构,比如说deepMatch模型。个人认为文本匹配的任务有两种实现方式,一个是学习不同domain中text的represation,然后利用represation计算score,这个的score可以是相似度(cosine,欧式距离等)。当然一般的处理是直接用dot pruduct。 第二种方式是利用sentence中不同词的特征直接计算相似度。这类的方法如deepMatch等。
  • 当然,大部分的算法模型,都是从相关的论文里面总结,由于个人水品有限,还是会有一些疏漏,请多多指正。

一 bm25算法

1.1 简介
bm25算法是一个基于bag-of-words的检索函数,它的主要功能是假定有一个document的集合,然后将给定的query,根据document与query的关联程度,对document进行排序。
1.2 算法介绍
bm25算法主要内容介绍:
假定有一个query,包含关键字q1,q2,q3,...

猜你喜欢

转载自blog.csdn.net/yiyele/article/details/103897744