统计文本建模
目的:观察语料库的词序列如何生成
1、Unigram Model(一元分词)
假设词典中共有V个词,产生文本的规则:
(1)一个色子有V个面,每个面对应一个词,概率不一。
(2)每掷一次色子,产生一个词。若一个文档中含有n个词,相当于独立掷了n次色子产生n个词。
统计文本建模
目的:观察语料库的词序列如何生成
1、Unigram Model(一元分词)
假设词典中共有V个词,产生文本的规则:
(1)一个色子有V个面,每个面对应一个词,概率不一。
(2)每掷一次色子,产生一个词。若一个文档中含有n个词,相当于独立掷了n次色子产生n个词。