top_hits指标聚合器跟踪要聚合的最相关文档。该聚合器旨在用作子聚合器，以便可以按存储分区汇总最匹配的文档。

top_hits聚合器可以有效地用于通过存储桶聚合器按某些字段对结果集进行分组。一个或多个存储桶聚合器确定将结果集切成哪些属性。

选项：

from-要获取的第一个结果的偏移量。
size-每个存储桶要返回的最匹配匹配项的最大数目。默认情况下，返回前三个匹配项。
排序-匹配的热门匹配的排序方式。默认情况下，命中按主要查询的分数排序。

我们还是来用一个例子来展示如何使用这个：

准备数据：

我们选用Kibana里带的官方的Sample web logs来作为我们的索引：

然后加载我们的索引：

这样我们的数据就加载完成了。

Top hits aggregation

首先，我们先做一个简单的基于hosts的aggregation:

GET kibana_sample_data_logs/_search

{

  "size": 0,

  "aggs": {

    "hosts": {

      "terms": {

        "field": "host.keyword",

        "size": 2

      }

    }

  }

}

上面的搜索的结果是我们想得到2个桶的数据（这里为了说明问题的方便，设定为2）。而这两个桶是基于hosts的值。搜索的结果是：

"aggregations" : {

    "hosts" : {

      "doc_count_error_upper_bound" : 0,

      "sum_other_doc_count" : 2807,

      "buckets" : [

        {

          "key" : "artifacts.elastic.co",

          "doc_count" : 6488

        },

        {

          "key" : "www.elastic.co",

          "doc_count" : 4779

        }

      ]

    }

  }

现在的要求是：我们想针对这里的每个桶得到按照我们需要排序的前面的几个结果，比如下面的搜索：

GET kibana_sample_data_logs/_search

{

  "size": 0,

  "aggs": {

    "hosts": {

      "terms": {

        "field": "host.keyword",

        "size": 2

      },

      "aggs": {

        "most_bytes": {

          "top_hits": {

            "sort": [

              {

                "bytes": {

                  "order": "desc"

                }

              }

            ],

            "_source": {

              "includes": [

                "bytes",

                "hosts",

                "ip",

                "clientip"

              ]

            },

            "size": 2

          }

        }

      }

    }

  }

}

上面实际上市一个pipleline的聚合。它在针对上面的桶来做了一个top_hits的聚合。针对每个桶，我们需要安装bytes的大小，降序排列，并且每个桶只需要两个数据：

  "aggregations" : {

    "hosts" : {

      "doc_count_error_upper_bound" : 0,

      "sum_other_doc_count" : 2807,

      "buckets" : [

        {

          "key" : "artifacts.elastic.co",

          "doc_count" : 6488,

          "most_bytes" : {

            "hits" : {

              "total" : {

                "value" : 6488,

                "relation" : "eq"

              },

              "max_score" : null,

              "hits" : [

                {

                  "_index" : "kibana_sample_data_logs",

                  "_type" : "_doc",

                  "_id" : "dnNIHm8BjrINWI3xXlRc",

                  "_score" : null,

                  "_source" : {

                    "bytes" : 19929,

                    "ip" : "127.155.255.9",

                    "clientip" : "127.155.255.9"

                  },

                  "sort" : [

                    19929

                  ]

                },

                {

                  "_index" : "kibana_sample_data_logs",

                  "_type" : "_doc",

                  "_id" : "OXNIHm8BjrINWI3xX1td",

                  "_score" : null,

                  "_source" : {

                    "bytes" : 19904,

                    "ip" : "100.177.58.231",

                    "clientip" : "100.177.58.231"

                  },

                  "sort" : [

                    19904

                  ]

                }

              ]

            }

          }

        },

        {

          "key" : "www.elastic.co",

          "doc_count" : 4779,

          "most_bytes" : {

            "hits" : {

              "total" : {

                "value" : 4779,

                "relation" : "eq"

              },

              "max_score" : null,

              "hits" : [

                {

                  "_index" : "kibana_sample_data_logs",

                  "_type" : "_doc",

                  "_id" : "4nNIHm8BjrINWI3xYWQl",

                  "_score" : null,

                  "_source" : {

                    "bytes" : 19986,

                    "ip" : "233.204.30.48",

                    "clientip" : "233.204.30.48"

                  },

                  "sort" : [

                    19986

                  ]

                },

                {

                  "_index" : "kibana_sample_data_logs",

                  "_type" : "_doc",

                  "_id" : "wnNIHm8BjrINWI3xW0Rj",

                  "_score" : null,

                  "_source" : {

                    "bytes" : 19956,

                    "ip" : "129.237.102.30",

                    "clientip" : "129.237.102.30"

                  },

                  "sort" : [

                    19956

                  ]

                }

              ]

            }

          }

        }

      ]

    }

  }

从上面的返回结果可以看出来两个hosts artifacts.elastic.co及www.elastic.co各返回两个结果，并且它们是按照bytes的大小进行降序排列的。

细心的读者可能会发现这个和我之前介绍的field collapsing有些类似。只是field collapsing里针对每个桶有一个结果，并且是按照我们的要求进行排序的最高结果的那个。当然我们也可以含有多几个返回结果在inner_hits之中。

参考：

【1】https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-metrics-top-hits-aggregation.html

Elasticsearch：top_hits aggregation的更多相关文章

Elasticsearch：运用search_after来进行深度分页
在上一篇文章 "Elasticsearch:运用scroll接口对大量数据实现更好的分页",我们讲述了如何运用scroll接口来对大量数据来进行有效地分页.在那篇文章中,我们讲述了 ...
Elasticsearch：Index生命周期管理入门
如果您要处理时间序列数据,则不想将所有内容连续转储到单个索引中. 取而代之的是,您可以定期将数据滚动到新索引,以防止数据过大而又缓慢又昂贵. 随着索引的老化和查询频率的降低,您可能会将其转移到价格较低 ...
Elasticsearch：Pinyin 分词器
Elastic的Medcl提供了一种搜索Pinyin搜索的方法.拼音搜索在很多的应用场景中都有被用到.比如在百度搜索中,我们使用拼音就可以出现汉字: 对于我们中国人来说,拼音搜索也是非常直接的.那么在 ...
Elasticsearch：定制分词器（analyzer）及相关性
转载自:https://elasticstack.blog.csdn.net/article/details/114278163 在许多的情况下,我们使用现有的分词器已经足够满足我们许多的业务需求,但 ...
Elasticsearch：如何实现对 emoji 表情符号进行搜索
转摘自:https://elasticstack.blog.csdn.net/article/details/114261636 Elasticsearch 是一个应用非常广泛的搜索引擎.它可以对文字 ...
Elasticsearch：使用 GeoIP 丰富来自内部专用 IP 地址
转载自:https://blog.csdn.net/UbuntuTouch/article/details/108614271 对于公共 IP,可以创建表来指定 IP 属于哪个城市的特定范围.但是,互 ...
Elasticsearch：aggregation介绍
聚合(aggregation)功能集是整个Elasticsearch产品中最令人兴奋和有益的功能之一,主要是因为它提供了一个非常有吸引力对之前的facets的替代. 在本教程中,我们将解释Elasti ...
Elasticsearch：significant terms aggregation
在本文中,我们将重点关注significant terms和significant text聚合.这些聚合旨在搜索数据集中有趣和/或不寻常的术语,这些术语可以告诉您有关数据的隐藏属性的更多信息.此功能 ...
Elasticsearch：运用 shard_size 来提高term aggregation的精度

随机推荐

Grammarly for Chrome-语法、用词自动检查
从语法和拼写到风格和语气,Grammarly帮助你消除写作错误,找到完美的词语来表达自己.当你在Gmail.Twitter.LinkedIn和几乎任何你发现自己在写作的地方写作时,你都会从Gramma ...
Java开发学习(十)----基于注解开发定义bean 已完成
一.环境准备先来准备下环境: 创建一个Maven项目 pom.xml添加Spring的依赖 <dependencies> <dependency> < ...
跟HR在大群吵架是什么体验？
原创不易,求分享.求一键三连昨天跟HR负责人在公司大群吵了一架,先说结论:我输了... 事情原委是,老板在周一司庆上聊嗨了,说了一句:我觉得打卡没用,建议取消打卡. 下来后老板在公司论坛发了一个问题 ...
Kafka启动遇到ERROR Exiting Kafka due to fatal exception (kafka.Kafka$) 解决办法从kafka的根目录启动 bin/kafka-server-start.sh config/server.properties
Mysql配置读写数据库 ERROR 1227 (42000): Access denied; you need (at least one of) the SUPER privilege(s) fo ...
解决报错ExecStart=/usr/sbin/mysqld --daemonize --pid-file=/run/mysqld/mysqld.pid (code
问题的由来 MySQL服务没有正常关机,是电脑没电后自动关机产生,记录一下排查过程 1.本以为是pid的问题,上网找了教程,解决不了,然后看日志看了网上各种说是数据库内存溢出 2021-03-12T1 ...
idea的使用技巧和必要的设置
idea 如何开启多个线程打开下面按钮,然后运行相同的代码即可打开idea需要选择打开哪一个项目 * 设置如下,关闭下面选项即可
VMware虚拟机安装基于Debian的统信UOS系统
统信操作系统(UOS)是一款美观易用.安全可靠的国产桌面操作系统.UOS预装了Google Chrome.WPS Office.搜狗输入法以及一系列原生应用.它既能让您体验到丰富多彩的娱乐生活,也可以 ...
C#异步延迟Task.Delay
一. 1.Task.Delay实质是创建一个任务,再任务中开启一个定时间,然后延时指定的时间2.Task.Delay不和await一起使用情况,当代码遇到Task.Delay一句时,创建了了一个新的任 ...
python 执行需要管理员权限的命令(Windows)
由于Windows存在管理员权限限制,执行需管理员权限的命令时会出错, 有两种方案, 1.采用python调用vbs文件,vbs调用bat文件 2.采用提供弹出用户管理员权限方式让用户确认 1.采用p ...
Win10系统下使用Django2.0.4+Celery4.4.2+Redis来实现异步任务队列以及定时(周期)任务(2020年最新攻略)
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_153 首先明确一点,celery4.1+的官方文档已经详细说明,该版本之后不需要引入依赖 django-celery 这个库了,直 ...

Elasticsearch：top_hits aggregation

准备数据：

Top hits aggregation

Elasticsearch：top_hits aggregation的更多相关文章

随机推荐

热门专题