Elasticsearch深入搜索之全文搜索及JavaAPI使用

一、基于词项与基于全文

所有查询会或多或少的执行相关度计算，但不是所有查询都有分析阶段。和一些特殊的完全不会对文本进行操作的查询（如 bool 或 function_score ）不同，文本查询可以划分成两大家族：

1.基于词项的查询

如 term 或 fuzzy 这样的底层查询不需要分析阶段，它们对单个词项进行操作。用 term 查询词项 Foo 只要在倒排索引中查找 准确词项 ，并且用 TF/IDF 算法为每个包含该词项的文档计算相关度评分 _score 。

记住 term 查询只对倒排索引的词项精确匹配，这点很重要，它不会对词的多样性进行处理（如， foo或 FOO ）。这里，无须考虑词项是如何存入索引的。如果是将 ["Foo","Bar"] 索引存入一个不分析的（ not_analyzed ）包含精确值的字段，或者将 Foo Bar 索引到一个带有 whitespace 空格分析器的字段，两者的结果都会是在倒排索引中有 Foo 和 Bar 这两个词。

2.基于全文的查询

像 match 或 query_string 这样的查询是高层查询，它们了解字段映射的信息：

如果查询 日期（date） 或 整数（integer） 字段，它们会将查询字符串分别作为日期或整数对待。
如果查询一个（ not_analyzed ）未分析的精确值字符串字段，它们会将整个查询字符串作为单个词项对待。
但如果要查询一个（ analyzed ）已分析的全文字段，它们会先将查询字符串传递到一个合适的分析器，然后生成一个供查询的词项列表。

一旦组成了词项列表，这个查询会对每个词项逐一执行底层的查询，再将结果合并，然后为每个文档生成一个最终的相关度评分。

我们将会在随后章节中详细讨论这个过程。

我们很少直接使用基于词项的搜索，通常情况下都是对全文进行查询，而非单个词项，这只需要简单的执行一个高层全文查询（进而在高层查询内部会以基于词项的底层查询完成搜索）。

当我们想要查询一个具有精确值的 not_analyzed 未分析字段之前，需要考虑，是否真的采用评分查询，或者非评分查询会更好。

单词项查询通常可以用是、非这种二元问题表示，所以更适合用过滤，而且这样做可以有效利用缓存：

GET /_search

{

    "query": {

        "constant_score": {

            "filter": {

                "term": { "gender": "female" }

            }

        }

    }

}

二、匹配查询

匹配查询 match 是个核心查询。无论需要查询什么字段， match 查询都应该会是首选的查询方式。它是一个高级 全文查询 ，这表示它既能处理全文字段，又能处理精确字段。

1.先添加索引数据

DELETE /my_index 

PUT /my_index

{ "settings": { "number_of_shards": 1 }}  //设置主分片个数，默认是5个,主分片副本数（number_of_replicas）默认1个

POST /my_index/my_type/_bulk

{ "index": { "_id": 1 }}

{ "title": "The quick brown fox" }

{ "index": { "_id": 2 }}

{ "title": "The quick brown fox jumps over the lazy dog" }

{ "index": { "_id": 3 }}

{ "title": "The quick brown fox jumps over the quick dog" }

{ "index": { "_id": 4 }}

{ "title": "Brown fox brown dog" }

2.单个词查询

GET /my_index/my_type/_search

{

    "query": {

        "match": {

            "title": "QUICK!"

        }

    }

}

查询结果：

{

  "took": 19,

  "timed_out": false,

  "_shards": {

    "total": 1,

    "successful": 1,

    "skipped": 0,

    "failed": 0

  },

  "hits": {

    "total": 3,

    "max_score": 0.42327404,

    "hits": [

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "1",

        "_score": 0.42327404,

        "_source": {

          "title": "The quick brown fox"

        }

      },

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "3",

        "_score": 0.42211798,

        "_source": {

          "title": "The quick brown fox jumps over the quick dog"

        }

      },

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "2",

        "_score": 0.2887157,

        "_source": {

          "title": "The quick brown fox jumps over the lazy dog"

        }

      }

    ]

  }

}

Elasticsearch 执行上面这个 match 查询的步骤是：

检查字段类型 。

标题 title 字段是一个 string 类型（ analyzed ）已分析的全文字段，这意味着查询字符串本身也应该被分析。
分析查询字符串 。

将查询的字符串 QUICK! 传入标准分析器中，输出的结果是单个项 quick 。因为只有一个单词项，所以 match 查询执行的是单个底层 term 查询。
查找匹配文档 。

用 term 查询在倒排索引中查找 quick 然后获取一组包含该项的文档，本例的结果是文档：1、2 和 3 。
为每个文档评分 。

用 term 查询计算每个文档相关度评分 _score ，这是种将词频（term frequency，即词 quick 在相关文档的 title 字段中出现的频率）和反向文档频率（inverse document frequency，即词 quick 在所有文档的 title 字段中出现的频率），以及字段的长度（即字段越短相关度越高）相结合的计算方式

结果分析：1.文档 1 最相关，因为它的 title 字段更短，即 quick 占据内容的一大部分。

　　　　　2.文档 3 比文档 2 更具相关性，因为在文档 2 中 quick 出现了两次。

单词匹配JavaAPI应用

MatchQueryBuilder matchQueryBuilder = QueryBuilders.matchQuery("title","QUICK!");

三、多词查询

GET /my_index/my_type/_search

{

    "query": {

        "match": {

            "title": "BROWN DOG!"

        }

    }

}

查询结果：

{

  "took": 5,

  "timed_out": false,

  "_shards": {

    "total": 1,

    "successful": 1,

    "skipped": 0,

    "failed": 0

  },

  "hits": {

    "total": 4,

    "max_score": 0.58571666,

    "hits": [

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "4",

        "_score": 0.58571666,

        "_source": {

          "title": "Brown fox brown dog"

        }

      },

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "2",

        "_score": 0.37400126,

        "_source": {

          "title": "The quick brown fox jumps over the lazy dog"

        }

      },

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "3",

        "_score": 0.37400126,

        "_source": {

          "title": "The quick brown fox jumps over the quick dog"

        }

      },

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "1",

        "_score": 0.12503365,

        "_source": {

          "title": "The quick brown fox"

        }

      }

    ]

  }

}

查询结果分析：

　　因为 match 查询必须查找两个词（ ["brown","dog"] ），它在内部实际上先执行两次 term 查询，然后将两次查询的结果合并作为最终结果输出。为了做到这点，它将两个 term 查询包入一个 bool 查询中。

注：即任何文档只要 title 字段里包含 指定词项中的至少一个词 就能匹配，被匹配的词项越多，文档就越相关。

2.提高精度

GET /my_index/my_type/_search

{

    "query": {

        "match": {

            "title": {

                "query":    "BROWN DOG!",

                "operator": "and"

            }

        }

    }

}

查询结果：

{

  "took": 1,

  "timed_out": false,

  "_shards": {

    "total": 1,

    "successful": 1,

    "skipped": 0,

    "failed": 0

  },

  "hits": {

    "total": 3,

    "max_score": 0.58571666,

    "hits": [

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "4",

        "_score": 0.58571666,

        "_source": {

          "title": "Brown fox brown dog"

        }

      },

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "2",

        "_score": 0.37400126,

        "_source": {

          "title": "The quick brown fox jumps over the lazy dog"

        }

      },

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "3",

        "_score": 0.37400126,

        "_source": {

          "title": "The quick brown fox jumps over the quick dog"

        }

      }

    ]

  }

}

MatchQueryBuilder matchQueryBuilder = QueryBuilders.matchQuery("title","BROWN DOG!").operator(Operator.AND);  //AND必须全部包含，OR至少包含一个

使用 operator 操作符参数查询，and参数指必须包含查询的所有词才能被查询出来。

3.控制精度

GET /my_index/my_type/_search

{

  "query": {

    "match": {

      "title": {

        "query":                "quick brown dog",

        "minimum_should_match": "75%"

      }

    }

  }

}

查询结果：

{

  "took": 1,

  "timed_out": false,

  "_shards": {

    "total": 1,

    "successful": 1,

    "skipped": 0,

    "failed": 0

  },

  "hits": {

    "total": 4,

    "max_score": 0.7961193,

    "hits": [

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "3",

        "_score": 0.7961193,

        "_source": {

          "title": "The quick brown fox jumps over the quick dog"

        }

      },

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "2",

        "_score": 0.662717,

        "_source": {

          "title": "The quick brown fox jumps over the lazy dog"

        }

      },

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "4",

        "_score": 0.58571666,

        "_source": {

          "title": "Brown fox brown dog"

        }

      },

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "1",

        "_score": 0.54830766,

        "_source": {

          "title": "The quick brown fox"

        }

      }

    ]

  }

}

MatchQueryBuilder matchQueryBuilder1 = QueryBuilders.matchQuery("title","quick brown dog").minimumShouldMatch("75%");

查询结果分析：

　　当给定百分比的时候， minimum_should_match 会做合适的事情：在之前三词项的示例中， 75% 会自动被截断成 66.6% ，即三个里面两个词。无论这个值设置成什么，至少包含一个词项的文档才会被认为是匹配的。

参数 minimum_should_match 的设置非常灵活，可以根据用户输入词项的数目应用不同的规则。完整的信息参考文档https://www.elastic.co/guide/en/elasticsearch/reference/5.6/query-dsl-minimum-should-match.html#query-dsl-minimum-should-match

四、组合查询

1.在组合过滤中，我们讨论过如何使用 bool 过滤器通过 and 、 or 和 not 逻辑组合将多个过滤器进行组合。在查询中， bool 查询有类似的功能，只有一个重要的区别。

过滤器做二元判断：文档是否应该出现在结果中？但查询更精妙，它除了决定一个文档是否应该被包括在结果中，还会计算文档的 相关程度 。

与过滤器一样， bool 查询也可以接受 must 、 must_not 和 should 参数下的多个查询语句。比如：

GET /my_index/my_type/_search

{

  "query": {

    "bool": {

      "must":     { "match": { "title": "quick" }},

      "must_not": { "match": { "title": "lazy"  }},

      "should": [

                  { "match": { "title": "brown" }},

                  { "match": { "title": "dog"   }}

      ]

    }

  }

}

查询结果：

{

  "took": 19,

  "timed_out": false,

  "_shards": {

    "total": 1,

    "successful": 1,

    "skipped": 0,

    "failed": 0

  },

  "hits": {

    "total": 2,

    "max_score": 0.7961192,

    "hits": [

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "3",

        "_score": 0.7961192,

        "_source": {

          "title": "The quick brown fox jumps over the quick dog"

        }

      },

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "1",

        "_score": 0.54830766,

        "_source": {

          "title": "The quick brown fox"

        }

      }

    ]

  }

}

BoolQueryBuilder boolQueryBuilder = QueryBuilders.boolQuery();

boolQueryBuilder.must(QueryBuilders.matchQuery("title","quick"));

boolQueryBuilder.mustNot(QueryBuilders.matchQuery("title","lazy"));

boolQueryBuilder.should(QueryBuilders.matchQuery("title","brown"));

boolQueryBuilder.should(QueryBuilders.matchQuery("title","dog"));

查询结果分析：

　　查询结果返回 title 字段包含词项 quick 但不包含 lazy 的任意文档。目前为止，这与 bool 过滤器的工作方式非常相似。

　　区别就在于两个 should 语句，也就是说：一个文档不必包含 brown 或 dog 这两个词项，但如果一旦包含，我们就认为它们 更相关

评分计算：

　　bool 查询会为每个文档计算相关度评分 _score ，再将所有匹配的 must 和 should 语句的分数 _score求和，最后除以 must 和 should 语句的总数。

　　must_not 语句不会影响评分；它的作用只是将不相关的文档排除。

2.控制精度

GET /my_index/my_type/_search

{

  "query": {

    "bool": {

      "should": [

        { "match": { "title": "brown" }},

        { "match": { "title": "fox"   }},

        { "match": { "title": "dog"   }}

      ],

      "minimum_should_match": 2

    }

  }

}

查询结果：

{

  "took": 1,

  "timed_out": false,

  "_shards": {

    "total": 1,

    "successful": 1,

    "skipped": 0,

    "failed": 0

  },

  "hits": {

    "total": 4,

    "max_score": 0.71075034,

    "hits": [

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "4",

        "_score": 0.71075034,

        "_source": {

          "title": "Brown fox brown dog"

        }

      },

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "2",

        "_score": 0.45928687,

        "_source": {

          "title": "The quick brown fox jumps over the lazy dog"

        }

      },

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "3",

        "_score": 0.45928687,

        "_source": {

          "title": "The quick brown fox jumps over the quick dog"

        }

      },

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "1",

        "_score": 0.2500673,

        "_source": {

          "title": "The quick brown fox"

        }

      }

    ]

  }

}

查询结果分析：

　　通过 minimum_should_match 参数控制需要匹配的 should 语句的数量，它既可以是一个绝对的数字，又可以是个百分比；

五、如何使用布尔匹配

1.多词match查询只是简单地将生成的 term 查询包裹在一个 bool 查询中。如果使用默认的 or 操作符，每个 term 查询都被当作 should 语句，这样就要求必须至少匹配一条语句。以下两个查询是等价的：

{

    "match": { "title": "brown fox"}

}

{

  "bool": {

    "should": [

      { "term": { "title": "brown" }},

      { "term": { "title": "fox"   }}

    ]

  }

}

2.如果使用 and 操作符，所有的 term 查询都被当作 must 语句，所以 所有（all） 语句都必须匹配。以下两个查询是等价的：

{

    "match": {

        "title": {

            "query":    "brown fox",

            "operator": "and"

        }

    }

}

{

  "bool": {

    "must": [

      { "term": { "title": "brown" }},

      { "term": { "title": "fox"   }}

    ]

  }

}

3.如果指定参数 minimum_should_match ，它可以通过 bool 查询直接传递，使以下两个查询等价：

{

    "match": {

        "title": {

            "query":                "quick brown fox",

            "minimum_should_match": "75%"

        }

    }

}

{

  "bool": {

    "should": [

      { "term": { "title": "brown" }},

      { "term": { "title": "fox"   }},

      { "term": { "title": "quick" }}

    ],

    "minimum_should_match": 2

  }

}

六、查询语句提升权重

1.一个简单的 bool 查询允许我们写出如下这种非常复杂的逻辑：

GET /_search

{

    "query": {

        "bool": {

            "must": {

                "match": {

                    "content": {

                        "query":    "full text search",

                        "operator": "and"

                    }

                }

            },

            "should": [

                { "match": { "content": "Elasticsearch" }},

                { "match": { "content": "Lucene"        }}

            ]

        }

    }

}

注：（1）content 字段必须包含 full 、 text 和 search 所有三个词。（2）如果content字段包含Elasticsearch或者Lucene，文档会获得更高的评分_scorce.

我们可以通过指定 boost 来控制任何查询语句的相对的权重， boost 的默认值为 1 ，大于 1 会提升一个语句的相对权重。所以下面重写之前的查询

GET /_search

{

    "query": {

        "bool": {

            "must": {

                "match": {

                    "content": {

                        "query":    "full text search",

                        "operator": "and"

                    }

                }

            },

            "should": [

                { "match": {

                    "content": {

                        "query": "Elasticsearch",

                        "boost": 3

                    }

                }},

                { "match": {

                    "content": {

                        "query": "Lucene",

                        "boost": 2

                    }

                }}

            ]

        }

    }

}

BoolQueryBuilder boolQueryBuilder = QueryBuilders.boolQuery();

         boolQueryBuilder.must(QueryBuilders.matchQuery("content","full text search").operator(Operator.AND));

         boolQueryBuilder.should(QueryBuilders.matchQuery("content","Elasticsearch").boost(3));

         boolQueryBuilder.should(QueryBuilders.matchQuery("content","Lucene").boost(2));

注：（1）这些语句使用默认的 boost 值 1 。（2）这条语句更为重要，因为它有最高的 boost 值。（3）这条语句比使用默认值的更重要，但它的重要性不及 Elasticsearch 语句。

boost 参数被用来提升一个语句的相对权重（ boost 值大于 1 ）或降低相对权重（ boost值处于 0 到 1 之间），但是这种提升或降低并不是线性的，换句话说，如果一个 boost 值为 2 ，并不能获得两倍的评分 _score 。

七、控制分析

查询只能查找倒排索引表中真实存在的项，所以保证文档在索引时与查询字符串在搜索时应用相同的分析过程非常重要，这样查询的项才能够匹配倒排索引中的项。

尽管是在说文档，不过分析器可以由每个字段决定。每个字段都可以有不同的分析器，既可以通过配置为字段指定分析器，也可以使用更高层的类型（type）、索引（index）或节点（node）的默认配置。在索引时，一个字段值是根据配置或默认分析器分析的。

在之前的IK分词器和拼音分词器结合应用文章中有介绍，指定不同字段分词器分析，在此就不再说了

Elasticsearch深入搜索之全文搜索及JavaAPI使用的更多相关文章

elasticsearch配合mysql实现全文搜索
之前用了sphinx,发现很多东西很久都没更新过了,之前只是知道有elasticsearch这个东西,还以为是java才能用,所以一直没有去了解过,也许sphinx慢慢会被淘汰了吧. 前置条件:需要安 ...
ElasticSearch利用IK实现全文搜索
要做到中文全文检索还需要按照中文分词库 ,这里就使用 IK来设置安装中文分词库相关命令: whereis elasticsearch 找到目录进入到/usr/elasticsearch/bin ...
全文搜索-介绍-elasticsearch-definitive-guide翻译
全文搜索我们通过前文的简单样例,已经了解了结构化数据的条件搜索:如今.让我们来了解全文搜索-- 如何通过匹配全部域的文本找到最相关的文章. 关于全文搜索有两个最重要的方面: 相似度计算通过TF/I ...
全文搜索之 Elasticsearch
概述 Elasticsearch (ES)是一个基于 Lucene 的开源搜索引擎,它不但稳定.可靠.快速,而且也具有良好的水平扩展能力,是专门为分布式环境设计的. 特性安装方便:没有其他依赖,下载 ...
Elasticsearch全文搜索——adout
现在尝试下稍微高级点儿的全文搜索——一项传统数据库确实很难搞定的任务. 搜索下所有喜欢攀岩(rock climbing)的雇员: curl -XGET 'localhost:9200/megacorp ...
在 Laravel 项目中使用 Elasticsearch 做引擎，scout 全文搜索(小白出品, 绝对白话)
项目中需要搜索, 所以从零开始学习大家都在用的搜索神器 elasiticsearch. 刚开始 google 的时候, 搜到好多经验贴和视频(中文的, 英文的), 但是由于是第一次接触, 一点概念都没 ...
使用ElasticSearch服务从MySQL同步数据实现搜索即时提示与全文搜索功能
最近用了几天时间为公司项目集成了全文搜索引擎,项目初步目标是用于搜索框的即时提示.数据需要从MySQL中同步过来,因为数据不小,因此需要考虑初次同步后进行持续的增量同步.这里用到的开源服务就是Elas ...
ASP.NET Web API + Elasticsearch 6.x 快速做个全文搜索
最近想做个全文搜索,设想用 ASP.NET Web API + Elasticsearch 6.x 来实现. 网上搜了下 Elasticsearch 的资料,大部分是讲 linux 平台下如何用 ja ...
ElasticSearch 2 (14) - 深入搜索系列之全文搜索
ElasticSearch 2 (14) - 深入搜索系列之全文搜索摘要在看过结构化搜索之后,我们看看怎样在全文字段中查找相关度最高的文档. 全文搜索两个最重要的方面是: 相关(relevance ...

随机推荐

Elastic Search 安装和配置
目标部署一个单节点的ElasticSearch集群依赖 java环境 $java -version java version "1.8.0_161" Java(TM) SE R ...
[PKUWC2018] Slay the spire
Description 现在有 $n$ 张强化牌和 $n$ 张攻击牌: 攻击牌:打出后对对方造成等于牌上的数字的伤害. 强化牌:打出后,假设该强化牌上的数字为 $x$,则其他剩下的攻击牌的 ...
c# EF code First生成数据库以及表
1. 安装Entity Framework 使用NuGet安装Entity Framework程序包:工具->库程序包管理器->程序包管理器控制台,执行以下语句: PM> Insta ...
C#通过虚方法实现方法重写—多态。
class Program { //希望person存的是哪个类的对象就调用哪个类的方法 //第一步将父类中对应方法家virtual关键字变为虚方法(子类可重写) //子类中方法用override ...
webapi 控制json的字段(key)显示顺序
使用两个c#的特性: 加在类上的:[DataContract] 加在字段上的:[DataMember(Name = "ResultCode",EmitDefaultValue = ...
[android] 插入一条记录到系统短信应用里
谷歌市场上有这些应用,模拟短信,原理就是把数据插入到短信应用的数据库里获取ContentResolver对象,通过getContentResolver()方法调用resolver对象的insert ...
tomcat端口修改以及jvm启动参数设置
1.端口更改:找到config目录下server.xml文件如下 <?xml version='1.0' encoding='utf-8'?> <!-- Licensed to t ...
Java基础-一文搞懂位运算
在日常的Java开发中,位运算使用的不多,使用的更多的是算数运算(+.-.*./.%).关系运算(<.>.<=.>=.==.!=)和逻辑运算(&&.||.!), ...
Spring之AOP在XML中的配置方法
AOP 即 Aspect Oriental Program 面向切面编程先来一个栗子: <aop:config> <aop:pointcut id="loggerCutp ...
HDU 2586 How far away ？
Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submission( ...

Elasticsearch深入搜索之全文搜索及JavaAPI使用

Elasticsearch深入搜索之全文搜索及JavaAPI使用的更多相关文章

随机推荐

热门专题