默认情况下，大多数字段都已编入索引，这使它们可搜索。但是，脚本中的排序，聚合和访问字段值需要与搜索不同的访问模式。

搜索需要回答“哪个文档包含该术语？”这个问题，而排序和汇总则需要回答一个不同的问题：“此字段对该文档的值是什么？”。

大多数字段可以将索引时生产的磁盘doc_values(https://www.elastic.co/guide/en/elasticsearch/reference/current/doc-values.html)用于此数据访问模式，但是文本（text）字段不支持doc_values。

替代的方案，文本（text）字段使用查询时内存中的数据结构，称为fielddata。当我们首次将该字段用于聚合，排序或在脚本中使用时，将按需构建此数据结构。它是通过从磁盘读取每个段的整个反向索引，反转术语︎文档关系并将结果存储在JVM堆中的内存中来构建的。

Fielddata针对text字段在默认时是禁用的

Fielddata会占用大量堆空间，尤其是在加载大量的文本字段时。一旦将字段数据加载到堆中，它在该段的生命周期内将一直保留在那里。同样，加载字段数据是一个昂贵的过程，可能导致用户遇到延迟的情况。这就是默认情况下禁用字段数据的原因。

假如我们创建一个如下的myindex的索引：

    PUT myindex

    {

      "mappings": {

        "properties": {

          "address": {

            "type": "text"

          }

        }

      }

    }

    PUT myindex/_doc/1

    {

      "address": "New York"

    }

如果您尝试对文本字段中的脚本进行排序，汇总或访问值:

    GET myindex/_search

    {

      "size": 20,

      "aggs": {

        "aggr_mame": {

          "terms": {

            "field": "address",

            "size": 5

          }

        }

      }

    }

则会看到以下异常：

显然，我们不能对text字段进行聚合处理。那么我们该如何处理这个问题呢？

我们的一种方法就是在配置mapping的时候加入"fielddata"=true这个选项。我们来重新对我们的myindex的mapping进行配置：

    DELETE myindex

    PUT myindex

    {

      "mappings": {

        "properties": {

          "address": {

            "type": "text",

            "fielddata": true

          }

        }

      }

    }

    PUT myindex/_doc/1

    {

      "address": "New York"

    }

    GET myindex/_search

    {

      "size": 0,

      "aggs": {

        "aggr_mame": {

          "terms": {

            "field": "address",

            "size": 5

          }

        }

      }

    }

在这里，我们尽管还是把address这个字段设置为text，但是由于我们加入了"fielddata"=true，那么我们，我们就可以对这个项进行统计了。

与简单的搜索操作不同，排序和聚合需要能够发现在特定文档的特定字段中可以找到哪些术语。对于这些任务和其他任务，必须具有与Elasticsearch（反向）索引相反的数据结构。这就是fielddata的目的。

细心的开发者，如果这个时候去Kibana创建一个以myindex为索引的index pattern，我们可以发现：

我们的address字段变为aggregatable，也就是说我们可以对它进行做聚合分析尽管它没有doc_values。

在启动fielddata之前

在启用fielddata之前，请考虑为什么将文本字段用于聚合，排序或在脚本中使用。这样做通常没有任何意义。

在索引之前会分析文本字段，以便可以通过搜索new或york来找到类似New York的值。当您可能想要一个名为New York的存储桶时，此字段上的术语汇总将返回一个叫做new存储桶和一个叫做york存储桶。

相反，您应该有一个用于全文搜索的文本字段，以及一个为聚合启用doc_values的未分析的keyword字段，如下所示：

    DELETE myindex

    PUT myindex

    {

      "mappings": {

        "properties": {

          "address": {

            "type": "text",

            "fields": {

              "keyword": {

                "type": "keyword",

                "ignore_above": 256

              }

            }

          }

        }

      }

    }

这样，我们可以使用address来做全文的搜索，而address.keyword被用来做aggregations, sorting 及在脚本中使用。

参考：

【1】https://www.elastic.co/guide/en/elasticsearch/reference/current/fielddata.html

【2】https://qbox.io/blog/field-data-elasticsearch-cluster-instability

Elasticsearch：fielddata 介绍的更多相关文章

第三百五十九节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)介绍以及安装
第三百五十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)介绍以及安装 elasticsearch(搜索引擎)介绍 ElasticSearch是一个基于 ...
三十八 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)介绍以及安装
elasticsearch(搜索引擎)介绍 ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口.Elasticse ...
全文搜索引擎Elasticsearch详细介绍
我们生活中的数据总体分为两种:结构化数据和非结构化数据. 结构化数据:也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理.指具有固 ...
Elasticsearch - 简单介绍
Elasticsearch 简介 1. 什么是 Elasticsearch ElasticSearch 是一个基于 Lucene 的搜索服务器. 它了一个分布式多用户能力的全文搜索引擎,能够达到实时 ...
ElasticSearch搜索介绍四
ElasticSearch搜索最基础的搜索: curl -XGET http://localhost:9200/_search 返回的结果为: { "took": 2, &quo ...
ElasticSearch入门介绍一
ElasticSearch 关于es的几个概念: 集群:多个运行es节点可以组成一个集群,它们拥有相同的cluster.name. 节点:运行es的实例索引:相当于数据库database,一个集群可 ...
〈一〉ElasticSearch的介绍
目录什么是ElasticSearch 核心能力 ES的搜索核心搜索引擎选择搜索的处理补充: 小节总结: 基本学习环境搭建如何操作ElasticSearch 下载.安装和运行(Based Wi ...
Docker部署ELK 7.0.1集群之Elasticsearch安装介绍
elk介绍这里不再赘述,本系列教程多以实战干货为主,关于elk工作原理介绍,详情查看官方文档. 一.环境规划主机名 IP 角色节点名 centos01 10.10.0.10 es node-10 ...
Elasticsearch 术语介绍和CRUD实际操作入门
一.Elastic Stack 核心Elasticsearch Elasticsearch 是一个分布式.RESTful 风格的搜索和数据分析引擎.Elasticsearch 是面向文档的,这就意味着 ...

随机推荐

docker for window WSL 2 installation is incomplete 错误，导致docker无法启动
1.错误截图如下: 2.错误原因:由于wsl2版本旧,根据提示让我们手动更新包,去微软官网下载最新wsl2后,安装完成重启即可解决. 3.下载地址:download地址
poste.io自建邮件服务器
随便说些什么腾讯企业邮新增账号不方便,这里的主要是指不经过手机验证或微信扫码的,虽然提供了最多3个"业务邮箱",很明显不够用. EwoMail,装没装起来我不记得了,反正是不好用 ...
Pytorch 中 tensor的维度拼接
torch.stack() 和 torch.cat() 都可以按照指定的维度进行拼接,但是两者也有区别,torch.satck() 是增加新的维度进行堆叠,即其维度拼接后会增加一个维度:而torch. ...
Nginx工作模式
Master-Worker模式 1.Nginx 在启动后,会有一个 master 进程和多个相互独立的 worker 进程.2.接收来自外界的信号,向各worker进程发送信号,每个进程都有可能来处理 ...
编程技巧│超实用 nginx 中常见的配置合集
目录封禁 IP 仅开放内网负载均衡列出文件列表路由转发开启 gzip 压缩解决跨域资源防盗链 Keepalived 提高吞吐量 HTTP 强制跳转 HTTPS 封禁 IP 通过 deny ...
以十字链表为存储结构实现矩阵相加（严5.27）--------西工大noj
#define _CRT_SECURE_NO_WARNINGS #include <stdio.h> #include <stdlib.h> typedef int ElemT ...
小C的记事本_via牛客网
题目链接:https://ac.nowcoder.com/acm/contest/28537/G 来源:牛客网时间限制:C/C++ 2秒,其他语言4秒空间限制:C/C++ 131072K,其他语 ...
2022-7-16 第五组 pan小堂基础语法
思维导图一维数组数组是存储多个变量(元素)的东西(容器) 这多个变量的数据类型要一致数组既可以存储基本数据类型,也可以存储引用数据类型. 1.数组定义的格式: 格式1:数据类型[] 数组名; 格 ...
mysql开发实战8问
mysql读写性能是多少,有哪些性能相关的配置参数? Mysql负载高时,如何找到是由哪些SQL引起的? 如何针对具体的SQL做优化? SQL层面已难以优化,请求量继续增大时的应对策略? Mysql如 ...
在半小时内从无到有开发并调试一款Chrome扩展（Chrome插件/谷歌浏览器插件）
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_120 就在不久之前,我们目前这个毕业班的班长那日同学和我说,他正在公司开发Chrome扩展,看起来很高大上的技术,实际开发却非常简 ...

Elasticsearch：fielddata 介绍

Fielddata针对text字段在默认时是禁用的

在启动fielddata之前

Elasticsearch：fielddata 介绍的更多相关文章

随机推荐

热门专题