文本相似度在很多地方都能用到,比如文本分类,相似文本抽取,可以先建立词表或者句表,然后从数据库中找相似的文本,文书,文章或者评论。
相似度计算方法大概有几类,字符级别,关键词级别,语意级别等
字符级别又有最长公共子序列,编辑距离等
关键词级别有权重常用tfidf,余弦函数,word2vector等
语意级别就是lad,lsi等等
未完待续
文本相似度在很多地方都能用到,比如文本分类,相似文本抽取,可以先建立词表或者句表,然后从数据库中找相似的文本,文书,文章或者评论。
相似度计算方法大概有几类,字符级别,关键词级别,语意级别等
字符级别又有最长公共子序列,编辑距离等
关键词级别有权重常用tfidf,余弦函数,word2vector等
语意级别就是lad,lsi等等
未完待续