Elasticsearch Mapping字段类型之search_as_you_type
1 search_as_you_type简单使用
search_as_you_type
字段类型确实方便,可以先看官网文档search_as_you_type来学习。
DELETE mytest
PUT mytest
{
"mappings":{
"properties":{
"name":{
"type":"search_as_you_type"
}
}
}
}
ES会自动创建如下4个字段:
字段 | 说明 |
---|---|
name |
按照 mapping 中的配置进行分析。 如果未配置分析器,则使用索引的默认分词器 |
name ._2gram |
用大小为 2 的 shingle token filter 分词器进行分词 |
name ._3gram |
用大小为 3 的 shingle token filter 分词器进行分词 |
name ._index_prefix |
用 edge ngram token filter 包装上面的 name ._3gram 的分词器 |
下面对name = "建设银行"
这个短语分析
字段 | 分析后结果 |
---|---|
name |
“建” 、“设”、“银”、“行” |
name ._2gram |
“建 设”、“设 银”、“银 行” |
name ._3gram |
“建 设 银”、“设 银 行” |
name ._index_prefix |
“建”、"建 "、“建 设”、"建 设 "、“建 设 银” 等等 |
name ._index_prefix
的结果很多,表格放不下,可以通过下面语句查看
POST mytest/_analyze
{
"field": "name._index_prefix",
"text": ["建设银行"]
}
//可以配置到建设银行
GET /mytest/_search
{
"query": {
"match": {
"name._2gram": {
"query": "建设"
}
}
}
}
//可以配置到建设银行、工商银行
GET /mytest/_search
{
"query": {
"match": {
"name._2gram": {
"query": "银行"
}
}
}
}
//可以配置到建设银行
GET /mytest/_search
{
"query": {
"match": {
"name._3gram": {
"query": "建设银"
}
}
}
}
2 search_as_you_type和match设置operator的区别
再创建下面2个文档
POST mytest/_doc/3
{
"name": "中油工程"
}
POST mytest/_doc/4
{
"name": "中国石油"
}
//这个能匹配到中油工程和中国石油,且2者评分一样
GET /mytest/_search
{
"query": {
"match": {
"name": {
"query": "中油",
"operator": "and"
}
}
}
}
//这个只能匹配到中油工程
GET /mytest/_search
{
"query": {
"match": {
"name._2gram": {
"query": "中油"
}
}
}
}
在search_as_you_type
字段的_2gram
、_3gram
上查询时,关键词的前后顺序是不会变的。这样就能实现类似如下的功能:
那这里要求“建行”能匹配到"建设银行",而"中油"不能匹配到"中国石油",我个人认为可以用到同义词这个功能,把"建行"设置为"建设银行"的同义词。比如没有设置"中渔"为"中水渔业"的同义词,那么就不会根据"中渔"搜索到"中水渔业"。而对于股票名称查询可以参考我之前的博客ik中文分词器+pinyin拼音分词器+同义词