版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/SunJW_2017/article/details/85114604
HanLP是一款优秀的中文自然语言处理工具,可以实现包括分词、词性标注、实体识别在内容诸多功能,详情见其项目主页。另外,该工具包还提供了python3的接口,在线安装很方便,但有时需要部署在内网机等没有网络环境的机器上,比较繁琐,整理步骤如下:
- 安装
jpype1
,这是pyhanlp
的依赖包,可以下载编译好的.whl
文件,地址在这,选择对应自己python版本和操作系统版本的后,用pip install *.whl
进行安装即可。 - 安装
java
环境,由于HanLP是用java开发的,因此调用python的接口时机器上应该配置了java环境,可以在网上搜索安装。 - 在
pyhanlp
的项目主页下载完整的.zip
压缩包,解压后进入文件夹执行python setup.py install
。 - 下载
data-for-1.7.0.zip
和hanlp-1.7.0.-release.zip
,解压后分别获得data
文件夹和hanlp.properties
、hanlp-1.7.0.jar
文件。 - 进入python包的安装目录,以
Anaconda
为例,进入该安装目录下的./lib/site-packages/pyhanlp-0.1.44-py3.6.egg/pyhanlp
文件夹,将4中得到的文件复制到本目录,保证目录的内部结构如下:
hanlp
|—static
| |—data
| | |—dictionary
| | |—model
| | |—READ.html
| | |—version.txt
| |—init.py
| |—hanlp.properties
| |—hanlp.properties.in
| |—hanlp-1.7.0.jar
| |—index.html
|—init.py
|—main.py
|—server.py
|—util.py - 编辑
hanlp.properties
中的内容,更改其中root=
行的内容,使其指向data
文件夹的上一层,如root=D:/Anaconda/Lib/site-packages/pyhanlp-0.1.44-py3.6.egg/pyhanlp/static
。 - 打开命令行,输入
hanlp -v
,检查是否安装成功。正常应该返回jar
包、data
文件夹和hanlp.properties
的位置。