simhash 应用场景大规模文本去重、检索,
召回一些候选文本
原理这篇博客讲的挺清楚的https://www.iteye.com/blog/aoyouzi-2313164
用python 可以直接调用计算
from simhash import Simhash
s1= "这里是中央电视台2020年春节联欢晚会直播现场"
s2 = "佟丽娅将主持2020年春节联欢晚会"
s3 = "去年的主持人是谁来着"
code1,code2,code3 = Simhash(s1),Simhash(s2),Simhash(s3)
print("s1 s2 distance",code1.distance(code2))
print("s1 s3 distance",code1.distance(code3))
print("s2 s3 distance",code3.distance(code2))
s1 s2 distance 23
s1 s3 distance 35
s2 s3 distance 24