ElasticSearch查询第四篇：匹配查询（Match）

《ElasticSearch查询》目录导航：

匹配（Match）查询属于全文（Fulltext）查询，不同于词条查询，ElasticSearch引擎在处理全文搜索时，首先分析（analyze）查询字符串，然后根据分词构建查询，最终返回查询结果。匹配查询共有三种类型，分别是布尔（boolean）、短语（phrase）和短语前缀（phrase_prefix），默认的匹配查询是布尔类型，这意味着，ElasticSearch引擎首先分析查询字符串，根据分析器对其进行分词，例如，对于以下match查询：

"query":{

      "match":{

         "eventname":"Microsoft Azure Party"

      }

查询字符串是“Microsoft Azure Party”，被分析器分词之后，产生三个小写的单词：microsoft，azure和party，然后根据分析的结果构造一个布尔查询，默认情况下，引擎内部执行的查询逻辑是：只要eventname字段值中包含有任意一个关键字microsoft、azure或party，那么返回该文档，伪代码是：

if (doc.eventname contains "microsoft" or doc.eventname contains "azure" or doc.eventname contains "party")

return doc

匹配查询的行为受到两个参数的控制：

operator：表示单个字段如何匹配查询条件的分词
minimum_should_match：表示字段匹配的数量

通过调整operator 和 minimum_should_match 属性值，控制匹配查询的逻辑条件，进而控制引擎返回的结果。默认情况下operator的值是or，在构造查询时设置分词之间的逻辑运算符，如果设置为and，那么引擎内部执行的查询逻辑是：

if (doc.eventname contains "microsoft" and doc.eventname contains "azure" and doc.eventname contains "party")

return doc

对于minimum_should_match 属性值，默认值是1，如果设置其值为2，表示分词必须匹配查询条件的数量为2，这意味着，只要文档的eventname字段包含任意两个关键字，就满足查询条件。

短语（Phrase）是一个字符串，其单个分词出现的位置和分词的数量是固定的。在进行短语查询时，必须匹配短语中每个分词及其相对位置，例如，对于包含两个分词的短语：“azure function”，分词“azure”出现在分词“function”之前，并且两个词条之间的位置相差一个空格，下面两个字符串都满足短语匹配：

"Azure Notification Hubs & Azure Function"
"Serverless Azure Function"

一，布尔匹配查询

布尔型match查询是把query参数中的条件字符串加以分析，使用索引映射中定义的分析器对字符串分词，然后构建相应的子查询，ElasticSearch选择合适的分析器（analyzer），该analyzer和建立索引时使用的分析器相同。在执行match查询时，默认情况下，字段值必须匹配任意一个词条，例如，当文档的eventname字段匹配任意一个分词，azure、aws和cloud时，该文档匹配match查询，匹配分词的数量是由匹配参数控制的。

POST /_search -d

{

   "from":10,

   "size":5,

   "query":{

      "match":{

         "eventname":"azure aws cloud"

      }

   }

}

2，match查询常用的参数

operator：用来控制match查询匹配词条的逻辑条件，默认值是or，如果设置为and，表示查询满足所有条件；
minimum_should_match：当operator参数设置为or时，该参数用来控制应该匹配的分词的最少数量；

POST /search -d
{

   "from":10,

   "size":5,

   "query":{

      "match":{

         "eventname":{

            "query":"azure aws cloud security",

            "operator":"or",

            "minimum_should_match":2

         }

      }

   }

}

二，短语匹配查询(match_phrase)

在执行短语匹配查询时，ElasticSearch引擎首先分析（analyze）查询字符串，从分析后的文本中构建短语查询，这意味着必须匹配短语中的所有分词，并且保证各个分词的相对位置不变：

POST /_search -d

{

   "from":1,

   "size":100,

   "fields":[ "eventname"],

   "query":{

      "match_phrase":{

         "eventname":"Open Source"

      }

   }

}

三，短语前缀匹配查询(match_phrase_prefix)

除了把查询文本的最后一个分词只做前缀匹配之外，match_phrase_prefix和match_phrase查询基本一样，参数 max_expansions 控制最后一个单词会被重写成多少个前缀，也就是，控制前缀扩展成分词的数量，默认值是50。扩展的前缀数量越多，找到的文档数量就越多；如果前缀扩展的数量太少，可能查找不到相应的文档，遗漏数据。如代码所示，能够查到eventname包含"Open Source Hack Night"的文档。

POST /_search -d

{

   "from":1,

   "size":100,

   "fields":[ "eventname" ],

   "query":{

      "match_phrase_prefix":{

         "eventname":{

            "query":"Open Source hac",

            "max_expansions":50

         }

      }

   }

}

四，多字段匹配查询

在多个字段上执行匹配相同的查询，叫做"multi_match"查询，Elasticsearch共有五种多字段匹配查询：best_fields，most_fields，cross_fields，phrase和phrase_prefix，默认的是best_fields类型，如下示例代码：

{

  "multi_match" : {

    "query":    "Microsoft Azure",

    "fields": [ "subject", "message" ]

  }

}

参数query指定查询的条件，在match查询中，query中的参数被分析成分词；参数type指定查询的类型，默认值是best_fields；参数fields指定字段数组，ElasticSearch在每个字段上匹配参数query。对于best_fields和most_fields类型，每个字段都会拆分成一个子查询（Individual Query），这意味着，ElasticSearch引擎在每个字段上生成一个子查询，每个子查询都匹配相同的query参数。

在示例中，参数query被拆分成两个分词microsoft和azure，ElasticSearch引擎有两个参数设置每个子查询（Individual Query）应该匹配的分词数量。

参数operator设置每个字段的子查询的匹配分词的逻辑方式，默认值是or，例如，如果设置参数operator为and，那么subject字段中必须同时含有microsoft和azure这两个分词。也就是说，匹配所有的分词。

"operator":"and"

当参数operator使用默认值时，参数minimum_should_match设置每个子查询应该匹配多少个分词，默认值是1，例如，设置minimum_should_match为1，那么subject字段中至少含有microsoft或azure的一个分词。

“operator”:"or"

"minimum_should_match":

1，best_fields类型

best_fields类型是默认值，从指定的字段中匹配查询，每个字段都计算评分（_score），返回最高的评分。如果不考虑评分，那么best_fields查询类型的含义是从指定的字段中执行查询，返回匹配的文档。

对于best_fields和most_fields查询类型，它们都是基于字段拆分的，每个字段都会产生一个子查询，

{

  "multi_match" : {

    "query":      "Will Smith",

    "type":       "best_fields",

    "fields":     [ "first_name", "last_name" ],

    "operator":   "and"

  }

}

跟best_fields类型相同的查询类型是dis_max，字母dis是单词“Disjunction”的简写，意思是分离，dis_max查询类型有一个子查询数组，每一个子查询都单独计算评分，返回子查询中最高的评分。如果忽略评分，那么dis_max查询类型的含义是执行指定的子查询，返回匹配的文档。

{

  "dis_max": {

    "queries": [

      { "match": { "subject": "brown fox" }},

      { "match": { "message": "brown fox" }}

    ]

  }

}

2，most_fields类型

most_fields类型是默认值，从指定的字段中匹配查询，每个字段都计算评分（_score），最后把每个字段的评分合并（Combine）在一起，求平均分。如果不考虑评分，那么most_fields查询类型的含义是从指定的字段中执行查询，返回匹配的文档。

该类型的查询类似于布尔查询的should子句查询，

{

  "bool": {

    "should": [

      { "match": { "title":          "quick brown fox" }},

      { "match": { "title.original": "quick brown fox" }},

      { "match": { "title.shingles": "quick brown fox" }}

    ]

  }

}

3，phrase和phrase_prefix查询类型

该类型的query是phrase，在每个字段上执行查询，然后返回最高的评分，类似于best_fields类型。

{

  "multi_match" : {

    "query":      "quick brown f",

    "type":       "phrase_prefix",

    "fields":     [ "subject", "message" ]

  }

}

{

  "dis_max": {

    "queries": [

      { "match_phrase_prefix": { "subject": "quick brown f" }},

      { "match_phrase_prefix": { "message": "quick brown f" }}

    ]

  }

}

4，cross_fields类型

该查询类型是把query条件拆分成各个分词，然后在各个字段上执行匹配分词，默认情况下，只要有一个字段匹配，那么返回文档。

例如，query参数拆分成will和smith两个分词，当参数operator为and时，字段first_name或last_name必须包含will ，并且 first_name或last_name必须包含smith。

{

  "multi_match" : {

    "query":      "Will Smith",

    "type":       "cross_fields",

    "fields":     [ "first_name", "last_name" ],

    "operator":   "and"

  }

}

如果参数operator为or，字段first_name或last_name必须包含will ，或者 first_name或last_name必须包含smith，其等价的逻辑是，只要字段 first_name或last_name中包含 will或smith就返回文档。

参考文档：

Elasticsearch Reference [2.4] » Query DSL

ElasticSearch查询第四篇：匹配查询（Match）的更多相关文章

ElasticSearch入门第四篇：使用C#添加和更新文档
这是ElasticSearch 2.4 版本系列的第四篇: ElasticSearch入门第一篇:Windows下安装ElasticSearch ElasticSearch入门第二篇:集群配置 E ...
SQL中常用模糊查询的四种匹配模式&&正则表达式
执行数据库查询时,有完整查询和模糊查询之分.一般模糊语句如下:SELECT 字段 FROM 表 WHERE 某字段 Like 条件其中关于条件,SQL提供了四种匹配模式:1.%:表示任意0个或多个字 ...
SQL模糊查询的四种匹配模式
执行数据库查询时,有完整查询和模糊查询之分,一般模糊语句如下: SELECT 字段 FROM 表 WHERE 某字段 Like 条件一.四种匹配模式关于条件,SQL提供了四种匹配模式: 1.% 表 ...
MySQL 子查询（四）子查询的优化、将子查询重写为连接
MySQL 5.7 ref ——13.2.10.10优化子查询十.子查询的优化开发正在进行中,因此从长远来看,没有什么优化建议是可靠的.以下列表提供了一些您可能想要使用的有趣技巧.See also ...
MongoDB基础教程系列--第四篇 MongoDB 查询文档
查询文档查询文档可以用 find() 方法查询全部文档,可以用 findOne() 查询第一个文档,当然还可以根据条件操作符和 $type操作符查询满足条件的文档. find() 和 find ...
ElasticSearch查询第五篇：布尔查询
布尔查询是最常用的组合查询,不仅将多个查询条件组合在一起,并且将查询的结果和结果的评分组合在一起.当查询条件是多个表达式的组合时,布尔查询非常有用,实际上,布尔查询把多个子查询组合(combine)成 ...
ElasticSearch入门第五篇：使用C#查询文档
这是ElasticSearch 2.4 版本系列的第五篇: ElasticSearch入门第一篇:Windows下安装ElasticSearch ElasticSearch入门第二篇:集群配置 E ...
ElasticSearch查询第三篇：词条查询
<ElasticSearch查询>目录导航: ElasticSearch查询第一篇:搜索API ElasticSearch查询第二篇:文档更新 ElasticSearch查询第三篇: ...
ElasticSearch入门第六篇：复合数据类型——数组，对象和嵌套
这是ElasticSearch 2.4 版本系列的第六篇: ElasticSearch入门第一篇:Windows下安装ElasticSearch ElasticSearch入门第二篇:集群配置 E ...

随机推荐

Kafka Topic Api
Pom: <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.10 ...
晓晨高效IP提取工具附源码
在网上找的几个代理ip网站,抓取下来的.解析网页用的是HtmlAgilityPack,没有用正则.自己重写了ListView使他动态加载的时候不闪烁.效果图下载地址:http://files.cnb ...
Bing.com在.NET Core 2.1上运行！
Bing.com在.NET Core 2.1上运行! 相关知识请参考.netCore开发团队博客(https://blogs.msdn.microsoft.com/dotnet/) Bing.com是 ...
如何写出没有BUG的代码
1947年9月9日,美国海军准将 Grace Hopper 在哈佛学院计算机实验室里使用 Mark II 和 Mark III 计算机进行研究工作.她的团队跟踪到 Mark II 上的一个错误,操作人 ...
Dapper-小型ORM之王（C#.NET）
ORM:对象关系映射器,它直接将数据库映射到C#对象. 有很多ORM框架可用,Dapper是其中之一,被称为ORM之王. 下面是Dapper主要的一些功能: 速度快,性能好; 更少的代码行对象映射 ...
c++构造函数成员初始化中赋值和初始化列表两种方式的区别
先总结下: 由于类成员初始化总在构造函数执行之前 1)从必要性: a. 成员是类或结构,且构造函数带参数:成员初始化时无法调用缺省(无参)构造函数 b. 成员是常量或引用:成员无法赋值,只能被初始化 ...
大神教你Debian GNU/Linux 9.7 “Stretch” Live和安装镜像开放下载
Debian项目团队于昨天发布了Debian GNU/Linux 9 "Stretch" 的第7个维护版本更新,重点修复了APT软件管理器中存在的安全漏洞.在敦促每位用户尽快升级系 ...
SDK安装详解以及adb的来源
首先,下载Android SDK Tools,翻过墙的朋友可以去Google Android的官网上下载(http://developer.android.com/sdk/index.html) 选择 ...
Python + selenium + pycharm 环境部署细节和selenium、Jenkins简单介绍
一.测试体系:Python + selenium + pycharm + Jenkins/docker 环境搭建: 1.安装python 3.4/3.5 2/3.6/ 3.7 2.配置环境变量 3.p ...
vue页面是否缓存的两种方式
第一种 <keep-alive> <router-view v-if="$route.meta.keepAlive"></router-view> ...

ElasticSearch查询 第四篇：匹配查询（Match）

ElasticSearch查询 第四篇：匹配查询（Match）的更多相关文章

随机推荐

热门专题

ElasticSearch查询第四篇：匹配查询（Match）

ElasticSearch查询第四篇：匹配查询（Match）的更多相关文章