本人使用的是maven导入portable版的hanlp
<!-- hanlp -->
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.5</version>
</dependency>
里面只含有少量数据,对于一些高级功能(CRF分词、句法分析等),则需要下载额外的数据包,并通过配置文件将数据包的位置告诉Hanlp。
安装过pyhanlp
如果你是安装过pyhanlp 的话,则数据包和配置文件已经安装就绪,可以通过hanlp -v命令查看hanlp.properties文件的位置,hanlp.properties是我们所需的配置文件,我们只需要讲它复制到项目的资源目录 src/main/resources即可(如果没有该目录,手动创建一个即可)
创建resources目录
手动创建resources的步骤:
步骤1:原项目结构图
步骤2:项目右键properties,然后如下一直操作
步骤3:勾选
步骤4:可以看见新建了resources目录
步骤5:最终项目结构图
此时Hanlp就会从/usr/local/lib/python3.6/site-packages/pyhanlp/static记载data,也就是说与pyhanlp公用用一套数据包。
没有安装过pyhanlp
如果使用maven直接配置Hanlp的话,没找到可以使用自定义词典的方法,所以导入hanlp-1.7.2.jar包进行配置。
1.下载jar、data、hanlp.properties。下载地址为https://github.com/hankcs/HanLP,下载后解压缩到一个目录中,比如D:/hanlp
2.在hanlp.properties中修改root地址,为data包的上一级目录。
3.将hanlp.properties放到项目的resources目录中即可。
4.在\data\dictionary\custom文件夹中创建自己的词典,txt格式,utf8编码,形式为词条-空格-词性。(也可以直接在CustomDictionary.txt中添加未登陆词)
5.第一次使用自定义词典前将缓存文件CustomDictionary.txt.bin删除,否则自定义词典不会生效。
6.在hanlp.properties中修改自定义词典路径,将自己的词典加入。
将hanlp.properties的第一行root设为data文件夹的父目录:
root=D:/hanlp
下面第一个词条是手动添加的未登陆词
下面是测试结果
在未加入该登陆词前结果是
[江/ns, 州市/n, 长江大桥/nz, 参加/v, 了/ul, 长江大桥/nz, 的/uj, 通车/v, 仪式/n]