前言

Elasticsearch 中的结构化搜索，即面向数值、日期、时间、布尔等类型数据的搜索，这些数据类型格式精确，通常使用基于词项的term精确匹配或者prefix前缀匹配。本文还将新版本的“text”，“keyword”进行说明，还有Term查询。

结构化搜索

结构化搜索（Structured search）是指对结构化的数据进行搜索。比如日期、时间和数字都是结构化的，它们有精确的格式，我们可以对这些格式进行逻辑操作。比较常见的操作包括比较数字或时间的范围、判定两个值的大小、前缀匹配等。

文本也可以是结构化的。如彩色笔可以有离散的颜色集合：红（red）、绿（green）、蓝（blue）。一个博客可能被标记了关键词分布式（distributed）和搜索（search）。电商网站上的商品都有 UPCs（通用产品码 Universal Product Codes）或其他的唯一标识，它们都需要遵从严格规定的、结构化的格式。

在结构化查询中，我们得到的结果只有“是”或“否”两个值，可以根据场景需要，决定结构化搜索是否需要打分，但通常我们是不需要打分的。

精确值查找

让我们以下面的例子开始介绍，创建并索引一些表示产品的文档，文档里有字段 price ，productID，show，createdAt，tags （ 价格，产品ID，是否展示，创建时间， 打标信息）

POST products/_doc/_bulk

{ "index": { "_id": 1 }}

{ "price" : 10, "productID" : "XHDK-A-1293-#fJ3", "show":true, "createdAt":"2021-03-03", "tags":"abc" }

{ "index": { "_id": 2 }}

{ "price" : 20, "productID" : "KDKE-B-9947-#kL5", "show":true, "createdAt":"2021-03-04" }

{ "index": { "_id": 3 }}

{ "price" : 30, "productID" : "JODL-X-1937-#pV7", "show":false, "createdAt":"2021-03-05"}

{ "index": { "_id": 4 }}

{ "price" : 30, "productID" : "QQPX-R-3956-#aD8", "show":true, "createdAt":"2021-03-06"}

数字

现在我们想要做的是查找具有某个价格的所有产品，假设我们要获取价格是20元的商品，我们可以使用 term 查询，如下

GET products/_search

{

  "query": {

    "term": {

      "price": 20

    }

  }

}

通常查找一个精确值的时候，我们不希望对查询进行评分计算。只希望对文档进行包括或排除的计算，所以我们会使用 constant_score 查询以非评分模式来执行 term 查询并以1.0作为统一评分。

最终组合的结果是一个 constant_score 查询，它包含一个 term 查询：

GET products/_search

{

  "query": {

    "constant_score": {

      "filter": {

        "term": {

          "price": 20

        }

      }

    }

  }

}

对于数字，一般还有范围查询

GET products/_search

{

  "query": {

    "constant_score": {

      "filter": {

        "range": {

          "price": {

            "gte": 10,

            "lte": 20

          }

        }

      }

    }

  }

}

range 支持的选项

gt: > 大于（greater than）
lt: < 小于（less than）
gte: >= 大于或等于（greater than or equal to）
lte: <= 小于或等于（less than or equal to）

布尔值

GET products/_search

{

  "query": {

    "constant_score": {

      "filter": {

        "term": {

          "show": true

        }

      }

    }

  }

}

日期

搜索一定时间范围内的文档

POST products/_search

{

  "query": {

    "constant_score": {

      "filter": {

        "range": {

          "createdAt": {

            "gte": "now-9d"

          }

        }

      }

    }

  }

}

POST products/_search

{

  "query": {

    "constant_score": {

      "filter": {

        "range": {

          "createdAt": {

            "gte": "2021-01-05"

          }

        }

      }

    }

  }

}

日期匹配表达式

y 年
M 月
w 周
d 天
H/h 小时
m 分钟
s 秒

文本

POST products/_search

{

  "query": {

    "constant_score": {

      "filter": {

        "terms": {

          "productID.keyword": [

            "XHDK-A-1293-#fJ3",

            "KDKE-B-9947-#kL5"

          ]

        }

      }

    }

  }

}

“productID.keyword”中的“keyword”不是关键字，而是Elasticsearch在插入文档的时候，自动为“productID”生成的子字段，名字是“keyword”。

null 处理

存在用“exists”，不存在用“must_not”搭配“exists”

// 存在“tags”字段

POST products/_search

{

    "query" : {

        "constant_score" : {

            "filter" : {

                "exists": {

                    "field":"tags"

                }

            }

        }

    }

}

// 不存在“tags”字段，老版本用“missing”关键字，现在已经废除了

POST products/_search

{

  "query": {

    "constant_score": {

      "filter": {

        "bool": {

          "must_not": {

            "exists": {

              "field": "tags"

            }

          }

        }

      }

    }

  }

}

注意，新版本不要再使用“missing”关键字，现在已经废除了，用“must_not”做取反。

使用“missing”会报错，报错信息如下：

"reason": "no [query] registered for [missing]"

keyword

在2.x版本里面文本使用的是string字段。

5.0之后，把string字段设置为了过时字段，引入text与keyword字段，这两个字段都可以存储字符串使用。

“text”用于全文搜索，“keyword”用于结构化搜索。“keyword”类似Java中的枚举。在新版本中，如果没有自己创建mapping，那么在文本的处理中，会把文本自动映射为“text”，同时会生成一个子字段“keyword”，类型是“keyword”。

在存储上，“text”会被分词器进行分词，而“keyword”会被原样保留。比如“Rabit is jumping”，“text”的情况下可能被存储为“rabit”，“jump”，而“keyword”情况下就会存储为“Rabit is jumping”。

Term查询

在ES中，term查询，对输入不做分词，会将输入作为一个整体，在倒排索引中查找精确的词项，并且使用相关性算分公式为每个包含该词项的文档进行相关度算分。

比如上面的（"productID": "QQPX-R-3956-#aD8"），会被分词为“qqpx”，“r”，“3956”，“ad8”。

“productID.keyword”的类型是keyword，所以即使使用match查询，最终也会变成Term查询。

// "productID.keyword": "qqpx-r-3956-#ad8" 没搜索出数据，其他都有

GET products/_search

{

  "query": {

    "match": {

      //"productID": "QQPX-R-3956-#aD8"

      //"productID": "qqpx"

      //"productID": "qqpx-r-3956-#ad8"

      //"productID.keyword": "QQPX-R-3956-#aD8"

      "productID.keyword": "qqpx-r-3956-#ad8"

    }

  }

}

// "productID": "qqpx" 与 "productID.keyword": "QQPX-R-3956-#aD8" 可以搜索出数据，其他不行

GET products/_search

{

  "query": {

    "term": {

      "productID": "QQPX-R-3956-#aD8"

      //"productID": "qqpx"

      //"productID": "qqpx-r-3956-#ad8"

      //"productID.keyword": "QQPX-R-3956-#aD8"

      //"productID.keyword": "qqpx-r-3956-#ad8"

    }

  }

}

资料

Elasticsearch 结构化搜索、keyword、Term查询的更多相关文章

Elasticsearch结构化搜索与查询
Elasticsearch 的功能之一就是搜索,搜索主要分为两种类型,结构化搜索和全文搜索.结构化搜索是指有关查询那些具有内在结构数据的过程.比如日期.时间和数字都是结构化的:它们有精确的格式,我们可 ...
ElasticSearch 结构化搜索
1.介绍结构化搜索(Structured search) 是指有关探询那些具有内在结构数据的过程.比如日期.时间和数字都是结构化的:它们有精确的格式,我们可以对这些格式进行逻辑操作. 比较常见的操作 ...
ElasticSearch 结构化搜索全文
1.介绍上篇介绍了搜索结构化数据的简单应用示例,现在来探寻全文搜索(full-text search) :怎样在全文字段中搜索到最相关的文档. 全文搜索两个最重要的方面是: 相关性(Relevan ...
Elasticsearch结构化搜索_在案例中实战使用term filter来搜索数据
1.根据用户ID.是否隐藏.帖子ID.发帖日期来搜索帖子 (1)插入一些测试帖子数据 POST /forum/article/_bulk { "index": { "_i ...
ElasticStack学习（九）：深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分
一.基于词项与全文的搜索 1.词项 Term(词项)是表达语意的最小单位,搜索和利用统计语言模型进行自然语言处理都需要处理Term. Term的使用说明: 1)Term Level Query:Ter ...
elasticsearch 深入 —— 结构化搜索
结构化搜索结构化搜索(Structured search) 是指有关探询那些具有内在结构数据的过程.比如日期.时间和数字都是结构化的:它们有精确的格式,我们可以对这些格式进行逻辑操作.比较常见的操作 ...
Elasticsearch系列---结构化搜索
概要结构化搜索针对日期.时间.数字等结构化数据的搜索,它们有自己的格式,我们可以对它们进行范围,比较大小等逻辑操作,这些逻辑操作得到的结果非黑即白,要么符合条件在结果集里,要么不符合条件在结果集之外 ...
ElasticSearch 2 (13) - 深入搜索系列之结构化搜索
ElasticSearch 2 (13) - 深入搜索系列之结构化搜索摘要结构化查询指的是查询那些具有内在结构的数据,比如日期.时间.数字都是结构化的.它们都有精确的格式,我们可以对这些数据进行逻 ...
ElasticSearch常用结构化搜索
最近,需要用到ES的一些常用的结构化搜索命令,因此,看了一些官方的文档,学习了一下.结构化查询指的是查询那些具有内在结构的数据,比如日期.时间.数字都是结构化的. 它们都有精确的格式,我们可以对这些数 ...

随机推荐

C# wpf window
使用vs2017 新建wpf 项目 MainWindow 被定义为partial,是因为他要和xaml的一些属性组合在一起,然后再运行起来,这正是 InitailizeCompoent 这个函数要干的 ...
Gym 101480I Ice Igloos（思维乱搞）题解
题意:给个最多500 * 500的平面,有半径最多不为1的n个圆,现在给你1e5条线段,问你每条线段和几个圆相交,时限10s 思路: 因为半径<1,那么我其实搜索的范围只要在线段附近就好了.x1 ...
Mybatis基础：Mybatis映射配置文件，Mybatis核心配置文件，Mybatis传统方式开发
一.Mybatis快速入门 1.1 框架介绍框架是一款半成品软件,我们可以基于这个半成品软件继续开发,来完成我们个性化的需求! 框架:大工具,我们利用工具,可以快速开发项目 (mybatis也是一个 ...
5分钟学Go 基础01：初识 Go 的第一印象是薪水可观
本文首发于公众号「5分钟学Go」,一个让你每次花 5 分钟就能掌握一个技能点的公众号.目前在博主连更 5 分钟学Go系列,大家可以关注下,第一时间掌握Go技能.如果想要加群交流,可以在公众号后台回复「 ...
git 取消未成功的 merge
git 取消未成功的 merge # 合并时遇到冲突想取消操作,恢复index $ git merge --abort # 可以回退到某个提交 $ git reset --hard # 可以撤销某个提 ...
HTML <keygen> 标签(👎 已废弃)
HTML 标签( 已废弃) 该标签在新的 Web 标准中已废弃. <!DOCTYPE html> <html> <head> <meta charset=& ...
2016 最新的树莓派3 Raspberry Pi 3 上手评测图解教程新手必看！(VNC 安装，启动，关闭)
1.png . 官方教程: INSTALLING OPERATING SYSTEM IMAGES: https://www.raspberrypi.org/documentation/installa ...
website text select notes menu
website text select notes menu website 文字选择笔记菜单(下划线, 标记, 复制, 分享) 下划线, 标记 https://time.geekbang.org/ ...
react-parent-child-lifecycle-order
react-parent-child-lifecycle-order react parent child lifecycle order live demo https://33qrr.csb.ap ...
HEVC Advance & H.265 专利费
HEVC Advance & H.265 专利费 https://www.hevcadvance.com/pdfnew/HEVC_Advance_Program_Overview_cn.pdf

Elasticsearch 结构化搜索、keyword、Term查询

前言