自然语言处理-命名实体识别的预料优化

本文主要是针对https://github.com/Determined22/zh-NER-TF 这个开源工程中的一个ner语料进行优化
在这里插入图片描述
非常标准的命名实体识别语料,语料的质量也是非常的高。
但是有个小问题
语料对于人物的标注,有非常多带称谓的人物只标注的姓
导致识别到非常多单字的姓效果非常差。
例如张女士、和张师傅识别结果都是张、张。
但我认为称谓也应该附带上
这边我花了两天时间,对语料中大约八百处标注进行了修改
原始语料
在这里插入图片描述在这里插入图片描述
修改之后
在这里插入图片描述
在这里插入图片描述
识别结果对比
语料修改之前的识别效果
在这里插入图片描述

修改之后的重新训练的识别结果
在这里插入图片描述
可以看到效果非常的显著

最后非常感谢大佬开源的工程,现也将语料公开
csdn下载链接

github
如果对你有用欢迎star一下

最后还是非常感谢大佬开源的项目
https://github.com/cycz/nerData/blob/master/README.md

发布了31 篇原创文章 · 获赞 12 · 访问量 6551

猜你喜欢

转载自blog.csdn.net/cyz52/article/details/95760418