背景

项目中有个需求是需要几个字段作为标签,统计各个标签的文档数量,同时支持分词后的全文检索功能。

原有的mapping设计:

curl -XPUT http://ip:9200/meta_es_metric_data -d'

{
"settings": {
"number_of_shards": 5,
"number_of_replicas": 0
},
"mappings": {
"meta_metric": {
"properties": {
"metricCode": {
"type": "text",
"analyzer" : "ik_max_word"
},
"metricTechType": {
"type": "keyword"
},
"dataDomainName": {
"type": "keyword"
},
"sceneClassify": {
"type": "keyword"
},
"metricClassify": {
"type": "keyword"
}
}
}
}
}'

其中keyword类型就是作为标签统计字段,因为其类型不支持分词检索,检索时必须精确查找,我们尝试把其类型修改成text,text本身就是支持分词索引,但是修改后就报错了:

Fielddata is disabled on text fields by default

经过查询了解es一个字段类型被设置为text,再进行聚合统计,就会报上面的问题.

那么ES有没有办法支持一个字段又支持分词检索同时可以进行统计的特性呢?其实就是ES是否可以一个字段定义两种类型: keyword 和 text.

答案是有的.

ES字段的fields属性

通过fields属性来让当前字段同时具备keyword和text类型

由于我们本身的字段类型是keyword,那我在field 属性中添加一个text,是否就满足需求呢?如:

curl -XPUT http://ip:9200/meta_es_metric_data -d'

{
"settings": {
"number_of_shards": 5,
"number_of_replicas": 0
},
"mappings": {
"meta_metric": {
"properties": {
"metricCode": {
"type": "text",
"analyzer" : "ik_max_word"
},
"metricTechType": {
"type": "keyword"
fields": {
"raw": {
"type": "text"
}
}
}
}
}
}
}'

当用match 搜索metricTechType.raw, 分词搜索是不行的。

之所以想这样做是因为ES支持新增字段、更新字段,但是不支持字段类型的修改

这条方法走不通,就比较复杂了,因为考虑修改字段类型,我们只能重建mapping, 同时涉及历史数据的加载处理。

具体步骤

1.重建索引,因es不支持修改字段类型

curl -XPUT http://ip:9200/meta_es_metric_data_new -d'

{
"settings": {
"number_of_shards": 5,
"number_of_replicas": 0
},
"mappings": {
"meta_metric": {
"properties": {
"metricCode": {
"type": "text",
"analyzer" : "ik_max_word"
}, "metricTechType": {
"type": "text",
"fields": {
"raw": {
"type": "keyword"
}
}
}, "dataDomainName": {
"type": "text",
"fields": {
"raw": {
"type": "keyword"
}
}
}, "sceneClassify": {
"type": "text",
"fields": {
"raw": {
"type": "keyword"
}
}
}, "metricClassify": {
"type": "text",
"fields": {
"raw": {
"type": "keyword"
}
}
}
}
}
}
}'

2.查看索引映射

curl -XGET  'http://ip:9200/meta_es_metric_data_new/_mapping'

3.将数据加载到新的索引上(老索引的数据还是在的)

curl -XPOST http://ip:9200/_reindex -d'
{
"source":{
"index": "meta_es_metric_data"
}, "dest": {
"index": "meta_es_metric_data_new"
} }'

4.查看老索引数据:


curl -XGET 'http://ip:9200/meta_es_metric_data/_search?pretty' -H 'Content-Type: application/json' -d'
{
"query": {
"match": {
"dataDomainName": "用户"
}
}
}
'

5.删除原索引,给新索引创建别名(为了代码不动)

curl -XDELETE http://ip:9200/meta_es_metric_data

curl -XPOST http://ip:9200/_aliases -d'
{
"actions":[
{
"add": {
"index": "meta_es_metric_data_new",
"alias": "meta_es_metric_data"
} }
] }'

6.测试字段是否支持全文检索及聚合

curl -XGET 'http://ip:9200/meta_es_metric_data_new/_search?pretty' -H 'Content-Type: application/json' -d'
{
"query": {
"match": {
"dataDomainName": "用户"
}
},
"sort": {
"dataDomainName.raw": "asc"
},
"aggs": {
"Cities": {
"terms": {
"field": "dataDomainName.raw"
}
}
}
}
'

总结

本文主要讲解如何让一个字段支持不同方式索引,利用Fields属性. 同时如何对历史存量数据进行处理. keyword类型支持es精确查找以及聚合排序,text支持全文检索,但是不能进行聚合、排序.

参考

  1. https://doc.codingdict.com/elasticsearch/330/

  2. https://cloud.tencent.com/developer/article/1555004

[Elasticsearch] ES 的Mapping 设计在实际场景中应用的更多相关文章

  1. Elasticsearch 第七篇:父子结构mapping设计以及相关查询

    h2.post_title { background-color: rgba(43, 102, 149, 1); color: rgba(255, 255, 255, 1); font-size: 1 ...

  2. Elasticsearch ES索引

    ES是一个基于RESTful web接口并且构建在Apache Lucene之上的开源分布式搜索引擎. 同时ES还是一个分布式文档数据库,其中每个字段均可被索引,而且每个字段的数据均可被搜索,能够横向 ...

  3. elasticsearch(es) 集群恢复触发配置(Local Gateway参数)

    elasticsearch(es) 集群恢复触发配置(Local Gateway) 当你集群重启时,几个配置项影响你的分片恢复的表现. 首先,我们需要明白如果什么也没配置将会发生什么. 想象一下假设你 ...

  4. elasticsearch版本控制及mapping映射属性介绍

    学习elasticsearch不仅只会操作,基本的运行原理我们还是需要进行了解,以下内容我讲对elasticsearch中的基本知识原理进行梳理,希望对大家有所帮助! 一.ES版本控制 1.Elast ...

  5. 【转载】[Elasticsearch]ES入门

    传送门:http://www.cnblogs.com/xing901022 ES即简单又复杂,你可以快速的实现全文检索,又需要了解复杂的REST API.本篇就通过一些简单的搜索命令,帮助你理解ES的 ...

  6. elasticsearch 权威指南Mapping(映射)

    什么是映射 类似于数据库中的表结构定义,主要作用如下: 定义Index下字段名(Field Name) 定义字段的类型,比如数值型,字符串型.布尔型等 定义倒排索引的相关配置,比如是否索引.记录pos ...

  7. ElasticSearch(ES)使用Nested结构存储KV及聚合查询

    自建博客地址:https://www.bytelife.net,欢迎访问! 本文为博客同步发表文章,为了更好的阅读体验,建议您移步至我的博客 本文作者: Jeffrey 本文链接: https://w ...

  8. CSharpGL(2)设计和使用场景元素及常用接口

    CSharpGL(2)设计和使用场景元素及常用接口 2016-08-13 由于CSharpGL一直在更新,现在这个教程已经不适用最新的代码了.CSharpGL源码中包含10多个独立的Demo,更适合入 ...

  9. 【ElasticSearch】:Mapping相关

    Mapping 类似数据库中的表结构定义,主要作用如下: 定义Index下的字段名(Field Name). 定义字段类型,例如数值型.字符串型.布尔型等. 定义倒排索引相关配置,比如是否索引.记录p ...

随机推荐

  1. CF1036F

    考虑这种一堆数字\(gcd = k\) 有经典做法. 考虑设\(f(x)\)为\(gcd\)是\(x\)的倍数的方案数. \(g(x)\)为\(gcd\)刚好为\(x\)的方案数. 则有 \(f(x) ...

  2. 洛谷 P6788 - 「EZEC-3」四月樱花(整除分块)

    题面传送门 题意: 求 \[\prod\limits_{x=1}^n\prod\limits_{y|x}\frac{y^{d(y)}}{\prod\limits_{z|y}z+1} \pmod{p} ...

  3. 【机器学习与R语言】3-概率学习朴素贝叶斯(NB)

    目录 1.理解朴素贝叶斯 1)基本概念 2)朴素贝叶斯算法 2.朴素贝斯分类应用 1)收集数据 2)探索和准备数据 3)训练模型 4)评估模型性能 5)提升模型性能 1.理解朴素贝叶斯 1)基本概念 ...

  4. mysql—mysql错误Every derived table must have its own alias解决

    Every derived table must have its own alias 这句话的意思是说每个派生出来的表都必须有一个自己的别名. 一般在多表查询时,会出现此错误. 因为,进行嵌套查询的 ...

  5. du命令之计算文件大小

    在linux中,常用du命令来计算文件或目录的大小 名称: du - 计算每个文件的磁盘用量,目录则取总用量. 用法: du [选项]... [文件]... 常用选项 -a, --all 输出所有文件 ...

  6. bluetooth sig bluetooth asia-深圳之行

    18年5月30日深圳参见蓝牙展会 主要了解下面 使用蓝牙和区块链构建室内导航定位系统和去中心化的MESH网络 -- 核心是通过iBeacon 来广播数据,典型用例是手机对手机的使用蓝牙进行交互,业界称 ...

  7. 详解 Rainbond Ingress 泛解析域名机制

    Rainbond 作为一款云原生应用管理平台,天生带有引导南北向网络流量的分布式网关 rbd-gateway.区别于一般的 Ingress 配置中,用户需要自行定义域名的使用体验,Rainbond 的 ...

  8. Rational Rose的安装及使用教程(包括菜单命令解释、操作向导说明、快捷命令说明)

    一.安装教程 我安装时用的是镜像文件,所以安装前需要辅助软件来处理镜像文件.我用到的是UltraISO.UltraISO中文名叫软碟通 是一款功能强大而又方便实用的光盘映像文件的制作/编辑/转换工具, ...

  9. python写的多项式符号乘法

    D:\>poly.py(x - 1) * (x^2 + x + 1) = x^3 - 1 1 import ply.lex as lex # pip install ply 2 import p ...

  10. Python计算期权隐含波动率

    更多精彩内容,欢迎关注公众号:数量技术宅,也可添加技术宅个人微信号:sljsz01,与我交流. Black-Scholes 将期权价格描述为标的价格.行权价.无风险利率.到期时间和波动性的函数.  V ...