自然语言处理 其他

版权声明:欢迎分享和转载,请注明出处 shuihupo:https://blog.csdn.net/shuihupo.同时,本博客部分会在云南省高校数据化运营管理工程中心博客同步。欢迎沟通交流:[email protected] https://blog.csdn.net/shuihupo/article/details/81540302

ICTCLAS中科院怎么用python

Python调用PYNIPIR(ICTCLAS)进行中文分词这里写链接内容

HanLP训练命名实体识别模型

目前HanLP中的命名实体识别主要通过HMM-角色标注模型来实现,由于这是一整套理论,所以HanLP实现了通用的抽象工具,并且通过其子类实现了人名、地名、机构名的模型训练。

本文将介绍通用的抽象工具,以及如何继承该工具实现常见命名实体识别模型的训练。在上述代码根据张华平老师的论文《基于角色标注的中国人名自动识别研究》中指定的规范,通过一些规则将每个单词的label转换了。由于是直接在原链表上进行转换,所以并不需要输出任何数据。
然后用户需要实现addToDictionary,该方法的目的是允许用户根据自己的业务逻辑确定哪些词语是模型需要的,哪些不是。

层叠HMM-Viterbi角色标注模型下的机构名识别

http://www.hankcs.com/nlp/ner/place-name-recognition-model-of-the-stacked-hmm-viterbi-role-labeling.html重点内容
HanLP中,还拓展了数词和方位词等等。
代码已集成到HanLP中开源:http://www.hankcs.com/nlp/hanlp.html

原理
基本原理请参考《实战HMM-Viterbi角色标注地名识别》,不再赘述。

与人名和地名识别稍有不同的是,在命名实体识别之前,需要先执行人名和地名识别,将粗分结果送入HMM模型求解,得出细分结果后才能进行,这是因为人名和地名也是机构名中的常见成分。这是与《实战HMM-Viterbi角色标注地名识别》《实战HMM-Viterbi角色标注中国人名识别》这两个姊妹篇最显著的不同。

猜你喜欢

转载自blog.csdn.net/shuihupo/article/details/81540302