首先我们有一个词库word_dict还一个待分词的字符串s，首先我们计算得到词库中最长词语的长度假设为m，从字符串第一个位置开始，选择一个最大长度的词长片段，如果该字符串的长度不足最大词长，则选择该全部字符串；
判断选择出来的字符串片段是否在词库中，若在，则将此词分离出来，若不在，则从右边开始，逐一减少一个字符，直到这个片段存在在词典中结束，或者以只剩下最后一个字结束；
字符串变为上一步截取分词后剩下的部分序列，直到序列完全被分割。

哈哈哈，上面肯定看的迷迷糊糊的，大家都这么过来的，文字太多容易视觉疲劳，那我们来举个小小的栗子吧。

比如说待分割的序列s=‘我爱长沙理工大学’，然后我们的word_dict={'喜欢'，‘长沙’，‘长沙理工大学’，...}假设其中最长词语的长度是6，接下来步骤就是

‘我爱长沙理工’(不在)-->'我爱长沙理‘(不在)-->'我爱长沙’(不在)-->'我爱长'(不在)-->'我爱'(不在)-->'我' ====剩余一个字，加入词典
‘爱长沙理工大’(不在) -->'爱长沙理工'(不在)-->’爱长沙理‘(不在)-->'爱长沙'(不在)-->'爱长'(不在)-->'爱'====剩余一个字，加入词典
'长沙理工大学'====在词典中，加入，遂分割完毕

于是"我爱长沙理工大学"就分割成了"我/爱/长沙理工大学"

1.2逆向最大匹配法(BMM)

如果比较深入的理解啦1.1中所说的正向最大匹配，那么只要将正向从左至右筛选的顺序换成从右至左筛选就好了。

其实90%（这个数字我乱编的，你可以理解成为大部分的意思）的情况下正向最大匹配法和逆向最大匹配法分词的结果都是一样的，但是也存在不一样的哟，比如说'结婚的和尚未结婚的'通过FMM可能会被分割成'结婚/的/和尚/未/结婚的/'，但是通过BMM可能就会被分割成'结婚/的/和/尚未/结婚/的'

1.3双向最大匹配法

双向最大匹配法就是将正向和逆向最大匹配法进行比较得出最后分词结果，在中文信息处理系统中被广泛运用

启发式规则：

1. 如果正反向分析结果词数不同，则取分析数较少的那个

2. 如果分词结果词数相同

分词结果相同，就说明没有歧义，可返回任意一个
分词结果不同，返回其中单字较少的那个

2.基于统计模型的分析算法

2.1基于N-gram语言模型的分词方法

wikipedia上有关n-gram的定义：
n-gram是一种统计语言模型，用来根据前(n-1)个item来预测第n个item。在应用层面，这些item可以是音素（语音识别应用）、字符（输入法应用）、词（分词应用）或碱基对（基因信息）。一般来讲，可以从大规模文本或音频语料库生成n-gram模型。习惯上，1-gram叫unigram，2-gram称为bigram，3-gram是trigram。还有four-gram、five-gram等，不过大于n>5的应用很少见。

如何计算一个句子出现的概率

假设句子s=w1,w2,...wn,那么不妨把s展开表示

p(s) = p(w1,w2,...wn) = p(w1)p(w2|w1)p(w3|w1,w2)***p(wn|w1,...wn-1)

那么问题来了，计算p(w1)简单，p(w2|w1)也能算，p(wn|w1,w2,..wn-1)就额非常费力了，所以我们要很自然的引出马尔科夫链，假设一个词wi出现的概率只与它前面的wi-1词有关，那么

p(s) = p(w1,w2,...wn) = p(w1)p(w2|w1)p(w3|w2)...p(wn|wn-1)

常用于搜索引擎