在本文中，我们将重点关注significant terms和significant text聚合。这些聚合旨在搜索数据集中有趣和/或不寻常的术语，这些术语可以告诉您有关数据的隐藏属性的更多信息。此功能对于以下用例特别有用：

为用户查询标识包含同义词，首字母缩略词等的相关文档。例如，当用户搜索H1N1时，重要术语聚合可能会建议带有“bird flu”的文档。
识别数据中的异常和有趣的事件。例如，通过基于位置过滤文档，我们可以确定特定区域中最常见的犯罪类型。
使用对整数字段（例如身高，体重，收入等）的significant term聚合来确定一组主题的最重要属性。

应当注意，重要术语和重要文本聚合都对直接查询（前景集）和索引中所有其他文档（背景集）检索的文档执行复杂的统计计算。因此，两种聚合都需要大量计算，因此应正确配置以快速工作。但是，一旦在本教程的帮助下掌握了它们，您将获得一个强大的工具，可以在应用程序中构建非常有用的功能并从数据集中获取有用的见解。让我们开始吧！

在教程开始，我们假定您已经把Elasticsearch及Kibana完整地安装好了。

创建Index mapping

为了说明significant terms和significant text的工作方式，我们首先需要创建一个测试“news”索引来存储新闻文章的集合。索引映射将包含诸如作者，出版日期，文章标题，视图数和主题之类的字段。让我们创建映射：

    PUT news

    {

      "mappings": {

        "properties": {

          "published": {

            "type": "date",

            "format": "dateOptionalTime"

          },

          "author": {

            "type": "keyword"

          },

          "title": {

            "type": "text"

          },

          "topic": {

            "type": "keyword"

          },

          "views": {

            "type": "integer"

          }

        }

      }

    }

如您所见，我们在topic和author字段中使用了keyword数据类型，在title字段中使用了text数据类型。提醒您，关键字字段只能按其确切值进行搜索，而文本字段可用于全文搜索。

接下来，让我们使用Bulk API将一些任意新闻文档添加到索引中。

    POST news/_bulk

    {"index":{"_index":"news"}}

    {"author":"John Michael","published":"2018-07-08","title":"Tesla is flirting with its lowest close in over 1 1/2 years (TSLA)","topic":"automobile","views":"431"}

    {"index":{"_index":"news"}}

    {"author":"John Michael","published":"2018-07-22","title":"Tesla to end up like Lehman Brothers (TSLA)","topic":"automobile","views":"1921"}

    {"index":{"_index":"news"}}

    {"author":"John Michael","published":"2018-07-29","title":"Tesla (TSLA) official says that they are going to release a new self-driving car model in the coming year","topic":"automobile","views":"1849"}

    {"index":{"_index":"news"}}

    {"author":"John Michael","published":"2018-08-14","title":"Five ways Tesla uses AI and Big Data","topic":"ai","views":"871"}

    {"index":{"_index":"news"}}

    {"author":"John Michael","published":"2018-08-14","title":"Toyota partners with Tesla (TSLA) to improve the security of self-driving cars","topic":"automobile","views":"871"}

    {"index":{"_index":"news"}}

    {"author":"Robert Cann","published":"2018-08-25","title":"Is AI dangerous for humanity","topic":"ai","views":"981"}

    {"index":{"_index":"news"}}

    {"author":"Robert Cann","published":"2018-09-13","title":"Is AI dangerous for humanity","topic":"ai","views":"871"}

    {"index":{"_index":"news"}}

    {"author":"Robert Cann","published":"2018-09-27","title":"Introduction to Generative Adversarial Networks (GANs) in self-driving cars","topic":"automobile","views":"1183"}

    {"index":{"_index":"news"}}

    {"author":"Robert Cann","published":"2018-10-09","title":"Introduction to Natural Language Processing","topic":"ai","views":"786"}

    {"index":{"_index":"news"}}

    {"author":"Robert Cann","published":"2018-10-15","title":"New Distant Objects Found in the Fight for Planet X ","topic":"astronomy","views":"542"}

在这里，我们共同插入了20条数据。

Significant Terms Aggregation

正如我们已经提到的，重要的术语聚合可以识别数据中异常和有趣的术语。对于以下用例，聚合功能非常强大：

识别与用户查询相关的相关术语/文档。例如，当用户查询“Spain”时，聚合可能会建议诸如“Madrid”，“Corrida”之类的术语，或有关Spain的文档中常见的其他任何术语。
Significant term聚合可用于自动新闻分类器，其中基于频繁连接的术语图对文档进行分类。
发现数据中的异常。例如，借助这种汇总，我们可以识别某些地理区域中的异常犯罪类型或疾病。

重要的是要理解，significant terms聚合选择的术语不仅是文档集中最受欢迎的术语。例如，即使首字母缩略词“ MSFT”仅存在于一千万个文档索引中的10个文档中，但如果在与用户查询“ Microsoft”相匹配的50个文档中有10个找到了这个MSFT，则它仍然是相关的。该频率使acronym（比如MSFT）与用户的搜索相关。

为了识别重要术语，聚合对与查询匹配的搜索结果以及从中收集结果的索引执行复杂的统计分析。与查询直接匹配的搜索结果代表前景集，而从中检索它们的索引代表背景集。重要术语聚合的任务是比较这些集合并找到最常与用户查询关联的术语。

上面的意思可以用上面的一幅图来解释。比如上面的绿色代表一个很大的索引，它里面可能含有比如Nokia这个term很高的出现率。即便如此，只要我们所搜索的FG那个红色的结果里，它出现的几率非常低，也不能够出现在significant terms的聚合里。相反，如果一个term比如TECNO（中国一个非常出名的在非洲的品牌）出现我们所搜索的set里（比如搜索 africa phone），那么我们搜索的聚合将会是是TECNO尽管TECNO可能在整个BG所包含的文档里出现的几率非常之低。

让我们使用真实示例，演示聚合如何工作。在下面的示例中，我们将尝试在索引中查找每个author的重要topics。为此，我们首先在author字段上使用术语“桶聚合(bucket aggregation)”。您还记得，terms aggregation为找到索引的所有唯一术语（即author）构造了存储桶。接下来，我们在“topics”字段上使用significant terms聚合，以找出每个author的最重要topic。看一下下面的查询：

    GET news/_search

    {

      "size": 0,

      "aggregations": {

        "authors": {

          "terms": {

            "field": "author"

          },

          "aggregations": {

            "significant_topic_types": {

              "significant_terms": {

                "field": "topic"

              }

            }

          }

        }

      }

    }

显示的结果为：

    {

      "took" : 1,

      "timed_out" : false,

      "_shards" : {

        "total" : 1,

        "successful" : 1,

        "skipped" : 0,

        "failed" : 0

      },

      "hits" : {

        "total" : {

          "value" : 20,

          "relation" : "eq"

        },

        "max_score" : null,

        "hits" : [ ]

      },

      "aggregations" : {

        "authors" : {

          "doc_count_error_upper_bound" : 0,

          "sum_other_doc_count" : 0,

          "buckets" : [

            {

              "key" : "John Michael",

              "doc_count" : 10,

              "significant_topic_types" : {

                "doc_count" : 10,

                "bg_count" : 20,

                "buckets" : [

                  {

                    "key" : "automobile",

                    "doc_count" : 8,

                    "score" : 0.4800000000000001,

                    "bg_count" : 10

                  }

                ]

              }

            },

            {

              "key" : "Robert Cann",

              "doc_count" : 10,

              "significant_topic_types" : {

                "doc_count" : 10,

                "bg_count" : 20,

                "buckets" : [

                  {

                    "key" : "ai",

                    "doc_count" : 6,

                    "score" : 0.2999999999999999,

                    "bg_count" : 8

                  }

                ]

              }

            }

          ]

        }

      }

    }

显然对于作者John Michael来说，在他所发表的书里automobile是最经常出现的词。共有8次，而bg_count是10。同样对于作者Robert Cann来说，在他发布的作品里，ai是最最经常出现的词，在他的8个作品中，有6词提到ai。可以断定他就是一个ai专家！

针对上面的significant terms聚合查询，我们也可以通过如下的方法来查询针对某个作者（author）的聚合。

    GET news/_search

    {

      "size": 0,

      "query": {

        "term": {

          "author": "John Michael"

        }

      },

      "aggregations": {

        "significant_topics": {

          "significant_terms": {

            "field": "topic"

          }

        }

      }

    }

显示的结果为：

    {

      "took" : 0,

      "timed_out" : false,

      "_shards" : {

        "total" : 1,

        "successful" : 1,

        "skipped" : 0,

        "failed" : 0

      },

      "hits" : {

        "total" : {

          "value" : 10,

          "relation" : "eq"

        },

        "max_score" : null,

        "hits" : [ ]

      },

      "aggregations" : {

        "significant_topics" : {

          "doc_count" : 10,

          "bg_count" : 20,

          "buckets" : [

            {

              "key" : "automobile",

              "doc_count" : 8,

              "score" : 0.4800000000000001,

              "bg_count" : 10

            }

          ]

        }

      }

    }

这种表述更适合解释我们上面的那个BG和FG的图。

针对significant text aggregation，基本它和significant terms aggregation非常相似，只是它作用于一个text字段而不是一个keyword字段。比如:

    GET news/_search

    {

      "size": 0,

      "query": {

        "match": {

          "title": "Tesla ai"

        }

      },

      "aggregations": {

        "significant_topics": {

          "significant_text": {

            "field": "topic"

          }

        }

      }

    }

注意这里的title字段是text，它同时搜索Telsa及ai，再根据这两个词来进行聚合：

    {

      "took" : 1,

      "timed_out" : false,

      "_shards" : {

        "total" : 1,

        "successful" : 1,

        "skipped" : 0,

        "failed" : 0

      },

      "hits" : {

        "total" : {

          "value" : 14,

          "relation" : "eq"

        },

        "max_score" : null,

        "hits" : [ ]

      },

      "aggregations" : {

        "significant_topics" : {

          "doc_count" : 14,

          "bg_count" : 20,

          "buckets" : [

            {

              "key" : "automobile",

              "doc_count" : 8,

              "score" : 0.08163265306122446,

              "bg_count" : 10

            },

            {

              "key" : "ai",

              "doc_count" : 6,

              "score" : 0.030612244897959134,

              "bg_count" : 8

            }

          ]

        }

      }

    }

参考：

【1】significant terms aggregation(https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-significantterms-aggregation.html)

【2】significant text aggregation(https://www.elastic.co/guide/en/elasticsearch/reference/master/search-aggregations-bucket-significanttext-aggregation.html)

Elasticsearch：significant terms aggregation的更多相关文章

Elasticsearch：aggregation介绍
聚合(aggregation)功能集是整个Elasticsearch产品中最令人兴奋和有益的功能之一,主要是因为它提供了一个非常有吸引力对之前的facets的替代. 在本教程中,我们将解释Elasti ...
Elasticsearch：定制分词器（analyzer）及相关性
转载自:https://elasticstack.blog.csdn.net/article/details/114278163 在许多的情况下,我们使用现有的分词器已经足够满足我们许多的业务需求,但 ...
Elasticsearch：运用search_after来进行深度分页
在上一篇文章 "Elasticsearch:运用scroll接口对大量数据实现更好的分页",我们讲述了如何运用scroll接口来对大量数据来进行有效地分页.在那篇文章中,我们讲述了 ...
Elasticsearch：Index生命周期管理入门
如果您要处理时间序列数据,则不想将所有内容连续转储到单个索引中. 取而代之的是,您可以定期将数据滚动到新索引,以防止数据过大而又缓慢又昂贵. 随着索引的老化和查询频率的降低,您可能会将其转移到价格较低 ...
Elasticsearch：Pinyin 分词器
Elastic的Medcl提供了一种搜索Pinyin搜索的方法.拼音搜索在很多的应用场景中都有被用到.比如在百度搜索中,我们使用拼音就可以出现汉字: 对于我们中国人来说,拼音搜索也是非常直接的.那么在 ...
Elasticsearch：如何实现对 emoji 表情符号进行搜索
转摘自:https://elasticstack.blog.csdn.net/article/details/114261636 Elasticsearch 是一个应用非常广泛的搜索引擎.它可以对文字 ...
Elasticsearch：使用 GeoIP 丰富来自内部专用 IP 地址
转载自:https://blog.csdn.net/UbuntuTouch/article/details/108614271 对于公共 IP,可以创建表来指定 IP 属于哪个城市的特定范围.但是,互 ...
Elasticsearch：top_hits aggregation
top_hits指标聚合器跟踪要聚合的最相关文档. 该聚合器旨在用作子聚合器,以便可以按存储分区汇总最匹配的文档. top_hits聚合器可以有效地用于通过存储桶聚合器按某些字段对结果集进行分组. 一 ...
Elasticsearch：运用 shard_size 来提高term aggregation的精度

随机推荐

Windows对拍系统
有个东西可以帮助对拍,告诉你两个程序的输出哪不一样(但是无法得知错误位置,聊胜于无吧) 一.打开计算机二.在上方输入$cmd$,摁下回车三.弹出对话窗如下,输入$fc +$空格,输入两个需要比较 ...
深入解析Kubernetes admission webhooks
BACKGROUND admission controllers的特点: 可定制性:准入功能可针对不同的场景进行调整. 可预防性:审计则是为了检测问题,而准入控制器可以预防问题发生可扩展性:在kub ...
最佳实践 | 疫情之下，了解 eolink 如何助力远程办公!
新冠疫情肆虐,eolink 结合自身长期的远程研发协作经验,为企业推出 API 管理远程协作指南,以下方案不仅在 Eolinker 内部,也在众多客户中得到验证,希望能够帮助您快速了解如何将 API ...
Python究竟属不属于嵌入式语言？
写在前面: 几十年来,大家普遍的认为C与C++才是标准的嵌入式语言,那么现在大火的Python算是一种嵌入式语言吗? 在给出我的答案之前我们要先明确几个问题? 什么是Python? 编程语言的定义? ...
Leetcode 1331. 数组序号转换
给你一个整数数组 arr ,请你将数组中的每个元素替换为它们排序后的序号. 序号代表了一个元素有多大.序号编号的规则如下: 序号从 1 开始编号. 一个元素越大,那么序号越大.如果两个元素相等,那么它 ...
【设计过程】.NET ORM FreeSql WhereDynamicFilter 动态表格查询功能
前言最近几乎每天40度,越热越不想面对电脑,还好开源项目都比较稳定没那么多待解决问题,趁着暑假带着女儿学习游泳已略有小成.游泳好处太多了,建议有孩子的都去学学,我是在岸边指导大约一周左右就学会了,目 ...
day02_基本语法
基本语法学习目标: 1. 数据类型 2. 变量 3. 编码介绍 4. 标识符和关键字 5. 字符串类型 6. 数据类型转化 7. 进制转换 8. 运算符一.数据类型什么是数据类型? 在开发软件的 ...
思维导图学《On Java》基础卷
说明原来读过 <Java 编程思想(第 4 版)>,但是这个版本还是基于 Java 5 讲解.由于 Java 8 做出了非常大的改进(是 Java 变化最大的版本),且截止到 2022- ...
python开发环境配置（Windows）
简介由于在搭建pyhon开发环境时会出现各种各样的问题,因此将这些问题记录下来 1.下载python 从官网下载对应系统的python版本(最新稳定版即可):官网地址为:python下载地址, 建议 ...
中国联通改造 Apache DolphinScheduler 资源中心，实现计费环境跨集群调用与数据脚本一站式访问
截止2022年,中国联通用户规模达到4.6亿,占据了全中国人口的30%,随着5G的推广普及,运营商IT系统普遍面临着海量用户.海量话单.多样化业务.组网模式等一系列变革的冲击. 当前,联通每天处理话单 ...

Elasticsearch：significant terms aggregation

创建Index mapping

Significant Terms Aggregation

Elasticsearch：significant terms aggregation的更多相关文章

随机推荐

热门专题