本文主要是针对https://github.com/Determined22/zh-NER-TF 这个开源工程中的一个ner语料进行优化
非常标准的命名实体识别语料,语料的质量也是非常的高。
但是有个小问题
语料对于人物的标注,有非常多带称谓的人物只标注的姓
导致识别到非常多单字的姓效果非常差。
例如张女士、和张师傅识别结果都是张、张。
但我认为称谓也应该附带上
这边我花了两天时间,对语料中大约八百处标注进行了修改
原始语料
修改之后
识别结果对比
语料修改之前的识别效果
修改之后的重新训练的识别结果
可以看到效果非常的显著
最后非常感谢大佬开源的工程,现也将语料公开
csdn下载链接
github
如果对你有用欢迎star一下
最后还是非常感谢大佬开源的项目
https://github.com/cycz/nerData/blob/master/README.md