写在前面的话

今天的这一章有几个目的，一是回答一下各位网友在各大博客上提出的问题，然后其他博主没有回答的问题。二是纠正一些别人在写局部敏感哈希时候出现的错误。就是这么贴心有没有。

假装自己是正文的正文

首先我们来看一下这篇文章局部敏感哈希LSH(Locality Sensitive Hashing)
https://blog.csdn.net/yc461515457/article/details/48845775

这里写图片描述

我觉得博主在这两篇文章里面的描述可能是有问题。

这两个图片要说的其实不是这个问题把，正版的PPT在这里http://i.stanford.edu/~ullman/cs246slides/LSH-1.pdf

这两个图都是针对我们在用Minhash 得到了我们特征矩阵之后然后把特征矩阵划分成了 b 个bands 每个band 包含了r 行的情况来说明的。具体的说明已经在我上一篇文章中，非常详细的说明了。

这里写图片描述

为什么这个图片是一条过原点的直线，我们可以这么看。首先纵坐标是每一个band 落到桶里的概率也就是，这个概率就是两个样本的相似度，也就是S。而横坐标就是两个样本的相似度，也是s . 所以，当你只有一个band 并且这个band 只有一行的时候，那么就是一条直线。这个其实很好理解。但是如果你有一个band ,这个band 有r行，两个样本相似的概率是s,那么每一行相似的概率就是s, 一个band 相同的概率就是 $s^r$ .

注意一个band 相同概率也就是指，这个band 的hash 值被映射到一个桶里的概率。

扫描二维码关注公众号，回复： 3356506 查看本文章

我们再来看另外一个图

这里写图片描述

这个图描述的应该就是有b个band 每个band 里面有r 行的情况
$s^r$ 表示的两列被映射到同一个bucket 的情况，或者说是两个band 相同的情况。如果这两个band 不相同，其实很难被映射到同一个bucket 里面，这个已经在前一节里面做了很详细的分析。
因为一个band 有r 行，每一行都相同才能保证我们的 band 相同