【NLP】中文分词之未登录词

·未登录词:unknown words,unlisted words, out-of-vocabulary .

·遇到未登录词时,如果没有适用的词汇发现手段,这些词就会被错误地切开,例如:

  考  研  的  时候

  俄罗斯  总统  梅  德  韦  杰  夫

·有些未登录词是不可能被穷尽的,例如数字串、人名等等。

·思考:基于构词知识的未登录词识别。

猜你喜欢

转载自blog.csdn.net/zkq_1986/article/details/87971366