场景:
数据:
1.词典,数量级十万
2.用户,数量级亿
3.用户key word,数量级千
需求:
匹配每个用户的key word是否在词典里出现
分析:
两个地方会影响性能
1.字符串比较
2.用户量
方案:
1.字符串可以通过hash来比较
2.用户量如果精度要求不高的话,对用户进行聚类,抽取族的keyword,然后用族的keyword跟字典进行比较
场景:
数据:
1.词典,数量级十万
2.用户,数量级亿
3.用户key word,数量级千
需求:
匹配每个用户的key word是否在词典里出现
分析:
两个地方会影响性能
1.字符串比较
2.用户量
方案:
1.字符串可以通过hash来比较
2.用户量如果精度要求不高的话,对用户进行聚类,抽取族的keyword,然后用族的keyword跟字典进行比较