版权声明:诸葛老刘所有 https://blog.csdn.net/weixin_39791387/article/details/83506714
已知一个元素,在一个list中找出相似的元素
- 使用场景:
已知一个其它来源的字符串, 它有可能是不完全与我数据库中相应的字符串匹配的,因此,我需要将其转为适合我数据库中的字符串 - 使用场景太绕了, 直接举例来说吧
随便举例:
按青岛城市的城区来说,
我数据库中存储的城区是个list:['市北区', '市南区', '莱州市', '四方区']
等
从其它的数据来源得到一个城区是:市北
我怎么得到与市北
相似相近的市北区
解决方案:
In [1]: import difflib
In [2]: cityarea_list = ['市北区', '市南区', '莱州市', '四方区']
# 正常情况下,我是这么用的
In [3]: a = difflib.get_close_matches('市北',cityarea_list,1, cutoff=0.7)
In [4]: a
Out[4]: ['市北区']
# 测试关键字改为市区,且要求返回相似度最高的两个元素
In [5]: a = difflib.get_close_matches('市区',cityarea_list,2, cutoff=0.7)
In [6]: a
Out[6]: ['市南区', '市北区']
# 测试关键字改为市区, 要求返回相似度最高的一个元素
In [7]: a = difflib.get_close_matches('市区',cityarea_list,1, cutoff=0.7)
In [8]: a
Out[8]: ['市南区']
详解:
difflib
是python 自带的一个方法- 返回的结果是个list
- 返回的list元素数量是可控的,
cutoff
参数是0到1的浮点数, 可以调试模糊匹配的精度,一般为0.6就可以了, 1为精确匹配,