Hanlp添加未登陆词

本人使用的是maven导入portable版的hanlp

<!-- hanlp -->
    <dependency>
        <groupId>com.hankcs</groupId>
        <artifactId>hanlp</artifactId>
        <version>portable-1.7.5</version>
    </dependency>

里面只含有少量数据,对于一些高级功能(CRF分词、句法分析等),则需要下载额外的数据包,并通过配置文件将数据包的位置告诉Hanlp。

安装过pyhanlp

如果你是安装过pyhanlp 的话,则数据包和配置文件已经安装就绪,可以通过hanlp -v命令查看hanlp.properties文件的位置,hanlp.properties是我们所需的配置文件,我们只需要讲它复制到项目的资源目录 src/main/resources即可(如果没有该目录,手动创建一个即可)

创建resources目录

手动创建resources的步骤:

步骤1:原项目结构图

步骤2:项目右键properties,然后如下一直操作

步骤3:勾选

步骤4:可以看见新建了resources目录

步骤5:最终项目结构图

此时Hanlp就会从/usr/local/lib/python3.6/site-packages/pyhanlp/static记载data,也就是说与pyhanlp公用用一套数据包。

没有安装过pyhanlp

如果使用maven直接配置Hanlp的话,没找到可以使用自定义词典的方法,所以导入hanlp-1.7.2.jar包进行配置。

1.下载jar、data、hanlp.properties。下载地址为https://github.com/hankcs/HanLP,下载后解压缩到一个目录中,比如D:/hanlp

2.在hanlp.properties中修改root地址,为data包的上一级目录。

3.将hanlp.properties放到项目的resources目录中即可。

4.在\data\dictionary\custom文件夹中创建自己的词典,txt格式,utf8编码,形式为词条-空格-词性。(也可以直接在CustomDictionary.txt中添加未登陆词)

5.第一次使用自定义词典前将缓存文件CustomDictionary.txt.bin删除,否则自定义词典不会生效。

6.在hanlp.properties中修改自定义词典路径,将自己的词典加入。
将hanlp.properties的第一行root设为data文件夹的父目录:

root=D:/hanlp

下面第一个词条是手动添加的未登陆词

下面是测试结果

在未加入该登陆词前结果是

[江/ns, 州市/n, 长江大桥/nz, 参加/v, 了/ul, 长江大桥/nz, 的/uj, 通车/v, 仪式/n]
发布了34 篇原创文章 · 获赞 45 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/one_super_dreamer/article/details/103417552