028 ElasticSearch----全文检索技术03---基础知识详解

1.IK分词器

(1)安装

使用IK分词器可以实现对中文分词的效果。
下载IK分词器：（Github地址：https://github.com/medcl/elasticsearch-analysis-ik）

下载zip，并将解压的文件拷贝到ES安装目录的plugins下的ik目录下(注意：ik的版本必须与elasticSearch一样)

然后重启elasticsearch：

测试分词效果：
发送：post localhost:9200/_analyze
{"text":"测试分词器，后边是测试内容：spring cloud实战","analyzer":"ik_max_word" }

(2)两种分词方式

ik分词器有两种分词模式：ik_max_word和ik_smart模式。
<1>ik_max_word
会将文本做最细粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、
华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。
<2>ik_smart
会做最粗粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国、人民大会堂。

(3)自定义词库

如果要让分词器支持一些专有词语，可以自定义词库。
iK分词器自带一个main.dic的文件，此文件为词库文件。

在上边的目录中新建一个my.dic文件（注意文件格式为utf-8（不要选择utf-8 BOM，使用editplus编辑文件，不要使用自带txt文件编辑器）
可以在其中自定义词汇：
比如定义：
配置文件中配置my.dic，

重启ES，测试分词效果：
发送：post localhost:9200/_analyze
{"text":"测试分词器，后边是测试内容：spring cloud实战","analyzer":"ik_max_word" }

028 ElasticSearch----全文检索技术03---基础知识详解

猜你喜欢