网上有很多写的很好的了,我就不重复造轮子了,摘录几篇讲的透彻的,忘记了再捡起来看看。
simhash的java实现(包含汉明距离计算):
simhash分段快速计算汉明距离的原理:
http://www.lanceyan.com/tag/simhash
simhash网页去重原理分析(比较通俗易懂,他的参考文献质量不错):
https://blog.csdn.net/sunny_ss12/article/details/46958155
高效计算二进制序列中1的个数:
https://yanyiwu.com/work/2014/01/30/simhash-shi-xian-xiang-jie.html
这篇用了官方ppt来讲,很清楚了:
http://grunt1223.iteye.com/blog/964564
simhash去重工程化落地的问题,值得好好体会: