N-gram model(在模糊匹配中的应用)
最常用的是bigram, trigram,高于4元的用的不多,训练需要更庞大的语料,而且数据稀疏严重,时间复杂度高,精度提升却不多
我的理解:
n-gram 分词就是把字符串按照N,切分成多个子字符串,每次移动一位。
非重复的n-gram分词为基础又可以得到N-gram距离:两个字符串的n-gram集合 - 2*(两个字符串的子字符串重合的个数)
N-gram model用来评估语句是否合理
更多:
Hidden markov model(HMM)
Maximum entropy model