Search a part of word with ElasticSearch

来自stackoverflow

https://stackoverflow.com/questions/6467067/how-to-search-for-a-part-of-a-word-with-elasticsearch

场景还原

// 初始化数据

POST /my_idx/my_type/_bulk

{"index": {"_id": "1"}}

{"name": "John Doeman", "function": "Janitor"}

{"index": {"_id": "2"}}

{"name": "Jane Doewoman", "function": "Teacher"}

{"index": {"_id": "3"}}

{"name": "Jimmy Jackal", "function": "Student"}

Question

ElasticSearch中有数据如下:

{

  "_id" : "1",

  "name" : "John Doeman",

  "function" : "Janitor"

}

{

  "_id" : "2",

  "name" : "Jane Doewoman",

  "function" : "Teacher"

}

{

  "_id" : "3",

  "name" : "Jimmy Jackal",

  "function" : "Student"

}

现在期望搜索所有包含Doe的文档

// 并没有返回任何文档

GET /my_idx/my_type/_search?q=Doe

// 返回一个文档

GET /my_idx/my_type/_search?q=Doeman

提问者还更换了分词器，改用请求体的方式，但这也不行:

GET /my_idx/my_type/_search

{

  "query": {

    "term": {

      "name": "Doe"

    }

  }

}

后来使用了nGram的tokenizer和filter

{

  "index": {

    "index": "my_idx",

    "type": "my_type",

    "bulk_size": "100",

    "bulk_timeout": "10ms",

    "analysis": {

      "analyzer": {

        "my_analyzer": {

          "type": "custom",

          "tokenizer": "my_ngram_tokenizer",

          "filter": [

            "my_ngram_filter"

          ]

        }

      },

      "filter": {

        "my_ngram_filter": {

          "type": "nGram",

          "min_gram": 1,

          "max_gram": 1

        }

      },

      "tokenizer": {

        "my_ngram_tokenizer": {

          "type": "nGram",

          "min_gram": 1,

          "max_gram": 1

        }

      }

    }

  }

}

引入了另外一个问题：任意的查询都可以返回所有文档

Answers

首先这是一个分词引起的问题，索引默认情况下使用standard分词器，对于文档：

{

  "_id" : "1",

  "name" : "John Doeman",

  "function" : "Janitor"

}

{

  "_id" : "2",

  "name" : "Jane Doewoman",

  "function" : "Teacher"

}

{

  "_id" : "3",

  "name" : "Jimmy Jackal",

  "function" : "Student"

}

索引后会得到这样一个映射，这里只考虑了name字段的分词：

segment	document id list
john	1
doeman	1
jane	2
doewoman	2
jimmy	3
jackal	3

那么现在考虑我们的搜索

Search 1

GET /my_idx/my_type/_search?q=Doe

standard分词器会将Doe分析为doe，然后到索引表中查找，并不会找到doe这个索引，因此返回空

Search 2

GET /my_idx/my_type/_search?q=Doeman

standard分词器会将Doeman分析为doeman，然后到索引表中找到了该索引，会发现只有doc ID 1包含该索引，所以只返回一个文档

Search 3

GET /my_idx/my_type/_search

{

    "query": {

        "term": {

            "name": "Doe"

        }

    }

}

term查询，Doe还是Doe，不会被分析器分析，但是Doe在索引表中依然是不存在的，所以这个方法也无法返回任何文档。

Search 4

额外说明，题主并没有用这种方式试过

GET /my_idx/my_type/_search

{

    "query": {

        "term": {

            "name": "Doeman"

        }

    }

}

不要以为这样就能找到了，因为term不进行分析，所以直接从索引表中找Doeman也是没有任何文档匹配的，除非把Doeman改为doeman

解决方案

总结了一下stackoverflow上的答案，目前有这么几种可行方案：

正则匹配法
通配符匹配法
前缀匹配法
nGram分词器法

正则匹配法

GET my_idx/my_type/_search

{

  "query": {

    "regexp": {

      "name": "doe.*"

    }

  }

}

通配符匹配法

使用query_string配合通配符进行查询，需要注意的是，通配符查找可能使用大量内存且效率低下

后缀匹配(前导通配符)是非常重的操作（e.g. "*ing"），索引中所有的term都会被查找一遍，可以通过allow_leading_wildcard来关闭后缀匹配功能

GET my_idx/my_type/_search

{

  "query": {

    "query_string": {

      "default_field": "name",

      "query": "Doe*"

    }

  }

}

前缀匹配法

原答案说使用prefix，但是prefix并没有对查询进行分析，这里我们使用match_phrase_prefix

GET my_idx/my_type/_search

{

  "query": {

    "match_phrase_prefix": {

      "name": {

        "query": "Doe",

        "max_expansions": 10

      }

    }

  }

}

nGram分词器法

创建索引

PUT my_idx

{

  "settings": {

    "analysis": {

      "analyzer": {

        "my_analyzer": {

          "tokenizer": "my_tokenizer"

        }

      },

      "tokenizer": {

        "my_tokenizer": {

          "type": "ngram",

          "min_gram": 3,

          "max_gram": 3,

          "token_chars": [

            "letter",

            "digit"

          ]

        }

      }

    }

  }

}

测试一下分词器

POST my_idx/_analyze

{

  "analyzer": "my_analyzer",

  "text": "Doeman"

}

// response

{

  "tokens": [

    {

      "token": "Doe",

      "start_offset": 0,

      "end_offset": 3,

      "type": "word",

      "position": 0

    },

    {

      "token": "oem",

      "start_offset": 1,

      "end_offset": 4,

      "type": "word",

      "position": 1

    },

    {

      "token": "ema",

      "start_offset": 2,

      "end_offset": 5,

      "type": "word",

      "position": 2

    },

    {

      "token": "man",

      "start_offset": 3,

      "end_offset": 6,

      "type": "word",

      "position": 3

    }

  ]

}

再查就可以查到了。而题主虽然使用了ngram，但是min_gram和max_gram都配置为1

长度越小，匹配到的文档越多，但匹配的质量会越差

长度越大，检索到的文档越匹配。推荐使用长度为3的tri-gram。官方文档对此有详细介绍

ElasticSearch - How to search for a part of a word with ElasticSearch的更多相关文章

ElasticSearch报 EsThreadPoolExecutor[search, queue capacity = 1000, org.elasticsearch.common.util.concurrent.EsThreadPoolExecutor@c0efba
ElasticSearch报以下错误的解决办法: "type": "es_rejected_execution_exception", "reason ...
Elasticsearch: 使用URI Search
在Elasticsearch中,我们可以使用_search终端进行搜索.这个在我之前的文章 "开始使用Elasticsearch (2)" 中有很多的描述.针对这种搜索,我们可以使 ...
ElasticSearch: SearchContextMissingException[No search context found for id [173690]]
这个原因是scroll的时间设置不够久,设久一些就可以了. ----------------------------------- 原文:https://www.cnblogs.com/chenmz1 ...
Elasticsearch通关教程（五）：如何通过SQL查询Elasticsearch
前言这篇博文本来是想放在全系列的大概第五.六篇的时候再讲的,毕竟查询是在索引创建.索引文档数据生成和一些基本概念介绍完之后才需要的.当前面的一些知识概念全都讲解完之后再讲解查询是最好的,但是最近公司 ...
【docker Elasticsearch】Rest风格的分布式开源搜索和分析引擎Elasticsearch初体验
概述: Elasticsearch 是一个分布式.可扩展.实时的搜索与数据分析引擎. 它能从项目一开始就赋予你的数据以搜索.分析和探索的能力,这是通常没有预料到的. 它存在还因为原始数据如果只是躺在磁 ...
学习用Node.js和Elasticsearch构建搜索引擎（3）：使用curl命令操作elasticsearch
使用Elasticsearch不免要提到curl工具,curl是利用URL语法在命令行方式下工作的开源文件传输工具.官网地址:https://curl.haxx.se/ 因为elasticsearch ...
elasticsearch安装与使用（4）-- 安装中文分词插件elasticsearch 的 jdbc
前言 elasticsearch(下面简称ES)使用jdbc连接mysql比go-mysql-elasticsearch的elasticsearch-river-jdbc能够很好的支持增量数据更新的问 ...
elasticsearch配置文件里的一些坑 [Failed to load settings from [elasticsearch.yml]]
这里整理几个空格引起的问题. 版本是elasticsearch-2.3.0 或者elasticsearch-rtf-master Exception in thread "main" ...
几篇关于MySQL数据同步到Elasticsearch的文章---第五篇：logstash-input-jdbc实现mysql 与elasticsearch实时同步深入详解
文章转载自: https://blog.csdn.net/laoyang360/article/details/51747266 引言: elasticsearch 的出现使得我们的存储.检索数据更快 ...

随机推荐

vs2017_enterprise正式版离线安装包bt下载
vs2017_enterprise正式版离线安装包bt下载点击这里下载种子磁力链接安装前请先打开certificates目录,安装里面的三个证书离线下载教程 : https://docs.mi ...
JS 互相调用iframe页面中js方法、VUE里 iframe 互调方法
1,父 html 调用子 iframe 内方法: document.getElementById("iframe").contentWindow.func(data1,data2. ...
[C++]指针/指针数组/数组指针/多维指针/单值指针/多值指针
int main(){ //单值指针(指向单个值得指针,类同普通变量) int *px = new int; *px = 100; printf("%d",*px); delete ...
Java SE之基本程序设计结构
概述: 0.注释 1.基本数据类型(有且仅有8个): 1.1 整型:int,short,long,byte(表示一个字节,[-128,127]) 1.2 ...
青云VPC网络配置
1 创建VPC网络 2 申请公网IP 3 回到VPC图形界面绑定公网ip 4 创建私有网络,并绑定私有网络 5 创建3台主机 6 新建防火墙,并绑定到VPC 7 配置VPC端口转发规则 8 添加防火墙 ...
pygame将文字保存为图片形式
近期自学了点小基础,分享一下用pygame制作字体图片的方法: # 将文字保存为图片形式 import pygame import sys pygame.init() 导入字体包,也可以调用系 ...
Django学习手册 - 自定义simple_tag / filter
相关: Django的模板引擎提供一般性的功能函数,通过前端可以实现多数的代码逻辑功能,但它仅支持大多数常见情况下的函数功能,例如if判断,ifequal对比返回值等,复杂一些的函数功能并不支持,例如 ...
【sky第二期--PID算法】--【智能车论坛】
[sky第二期--PID算法] 想学PID的可以来[智能车论坛]这里有我发布的资料http://bbs.tekbots.eefocus.com/forum.php?mod=viewthread& ...
setfacl报错Operation not supported
对文件目录setfacl权限设置时报错Operation not supported Google一下,发现是分区acl权限问题一般情况下(ext4),默认acl支持都是加载的.但如果遇到二般情况, ...
sublime汉化步骤记录
1.下载sublime编辑器,下载地址:http://www.sublimetext.com/ 2.安装sublime 3.首先安装“Package Control”(如果已经安装过可以跳过此步骤) ...

ElasticSearch - How to search for a part of a word with ElasticSearch