[Elasticsearch] ES 的Mapping 设计在实际场景中应用
背景
项目中有个需求是需要几个字段作为标签,统计各个标签的文档数量,同时支持分词后的全文检索功能。
原有的mapping设计:
curl -XPUT http://ip:9200/meta_es_metric_data -d'
{
"settings": {
"number_of_shards": 5,
"number_of_replicas": 0
},
"mappings": {
"meta_metric": {
"properties": {
"metricCode": {
"type": "text",
"analyzer" : "ik_max_word"
},
"metricTechType": {
"type": "keyword"
},
"dataDomainName": {
"type": "keyword"
},
"sceneClassify": {
"type": "keyword"
},
"metricClassify": {
"type": "keyword"
}
}
}
}
}'
其中keyword类型就是作为标签统计字段,因为其类型不支持分词检索,检索时必须精确查找,我们尝试把其类型修改成text,text本身就是支持分词索引,但是修改后就报错了:
Fielddata is disabled on text fields by default
经过查询了解es一个字段类型被设置为text,再进行聚合统计,就会报上面的问题.
那么ES有没有办法支持一个字段又支持分词检索同时可以进行统计的特性呢?其实就是ES是否可以一个字段定义两种类型: keyword 和 text.
答案是有的.
ES字段的fields属性
通过fields属性来让当前字段同时具备keyword和text类型
由于我们本身的字段类型是keyword,那我在field 属性中添加一个text,是否就满足需求呢?如:
curl -XPUT http://ip:9200/meta_es_metric_data -d'
{
"settings": {
"number_of_shards": 5,
"number_of_replicas": 0
},
"mappings": {
"meta_metric": {
"properties": {
"metricCode": {
"type": "text",
"analyzer" : "ik_max_word"
},
"metricTechType": {
"type": "keyword"
fields": {
"raw": {
"type": "text"
}
}
}
}
}
}
}'
当用match 搜索metricTechType.raw, 分词搜索是不行的。
之所以想这样做是因为ES支持新增字段、更新字段,但是不支持字段类型的修改
这条方法走不通,就比较复杂了,因为考虑修改字段类型,我们只能重建mapping, 同时涉及历史数据的加载处理。
具体步骤
1.重建索引,因es不支持修改字段类型
curl -XPUT http://ip:9200/meta_es_metric_data_new -d'
{
"settings": {
"number_of_shards": 5,
"number_of_replicas": 0
},
"mappings": {
"meta_metric": {
"properties": {
"metricCode": {
"type": "text",
"analyzer" : "ik_max_word"
},
"metricTechType": {
"type": "text",
"fields": {
"raw": {
"type": "keyword"
}
}
},
"dataDomainName": {
"type": "text",
"fields": {
"raw": {
"type": "keyword"
}
}
},
"sceneClassify": {
"type": "text",
"fields": {
"raw": {
"type": "keyword"
}
}
},
"metricClassify": {
"type": "text",
"fields": {
"raw": {
"type": "keyword"
}
}
}
}
}
}
}'
2.查看索引映射
curl -XGET 'http://ip:9200/meta_es_metric_data_new/_mapping'
3.将数据加载到新的索引上(老索引的数据还是在的)
curl -XPOST http://ip:9200/_reindex -d'
{
"source":{
"index": "meta_es_metric_data"
},
"dest": {
"index": "meta_es_metric_data_new"
}
}'
4.查看老索引数据:
curl -XGET 'http://ip:9200/meta_es_metric_data/_search?pretty' -H 'Content-Type: application/json' -d'
{
"query": {
"match": {
"dataDomainName": "用户"
}
}
}
'
5.删除原索引,给新索引创建别名(为了代码不动)
curl -XDELETE http://ip:9200/meta_es_metric_data
curl -XPOST http://ip:9200/_aliases -d'
{
"actions":[
{
"add": {
"index": "meta_es_metric_data_new",
"alias": "meta_es_metric_data"
}
}
]
}'
6.测试字段是否支持全文检索及聚合
curl -XGET 'http://ip:9200/meta_es_metric_data_new/_search?pretty' -H 'Content-Type: application/json' -d'
{
"query": {
"match": {
"dataDomainName": "用户"
}
},
"sort": {
"dataDomainName.raw": "asc"
},
"aggs": {
"Cities": {
"terms": {
"field": "dataDomainName.raw"
}
}
}
}
'
总结
本文主要讲解如何让一个字段支持不同方式索引,利用Fields属性. 同时如何对历史存量数据进行处理. keyword类型支持es精确查找以及聚合排序,text支持全文检索,但是不能进行聚合、排序.
参考
[Elasticsearch] ES 的Mapping 设计在实际场景中应用的更多相关文章
- Elasticsearch 第七篇:父子结构mapping设计以及相关查询
h2.post_title { background-color: rgba(43, 102, 149, 1); color: rgba(255, 255, 255, 1); font-size: 1 ...
- Elasticsearch ES索引
ES是一个基于RESTful web接口并且构建在Apache Lucene之上的开源分布式搜索引擎. 同时ES还是一个分布式文档数据库,其中每个字段均可被索引,而且每个字段的数据均可被搜索,能够横向 ...
- elasticsearch(es) 集群恢复触发配置(Local Gateway参数)
elasticsearch(es) 集群恢复触发配置(Local Gateway) 当你集群重启时,几个配置项影响你的分片恢复的表现. 首先,我们需要明白如果什么也没配置将会发生什么. 想象一下假设你 ...
- elasticsearch版本控制及mapping映射属性介绍
学习elasticsearch不仅只会操作,基本的运行原理我们还是需要进行了解,以下内容我讲对elasticsearch中的基本知识原理进行梳理,希望对大家有所帮助! 一.ES版本控制 1.Elast ...
- 【转载】[Elasticsearch]ES入门
传送门:http://www.cnblogs.com/xing901022 ES即简单又复杂,你可以快速的实现全文检索,又需要了解复杂的REST API.本篇就通过一些简单的搜索命令,帮助你理解ES的 ...
- elasticsearch 权威指南Mapping(映射)
什么是映射 类似于数据库中的表结构定义,主要作用如下: 定义Index下字段名(Field Name) 定义字段的类型,比如数值型,字符串型.布尔型等 定义倒排索引的相关配置,比如是否索引.记录pos ...
- ElasticSearch(ES)使用Nested结构存储KV及聚合查询
自建博客地址:https://www.bytelife.net,欢迎访问! 本文为博客同步发表文章,为了更好的阅读体验,建议您移步至我的博客 本文作者: Jeffrey 本文链接: https://w ...
- CSharpGL(2)设计和使用场景元素及常用接口
CSharpGL(2)设计和使用场景元素及常用接口 2016-08-13 由于CSharpGL一直在更新,现在这个教程已经不适用最新的代码了.CSharpGL源码中包含10多个独立的Demo,更适合入 ...
- 【ElasticSearch】:Mapping相关
Mapping 类似数据库中的表结构定义,主要作用如下: 定义Index下的字段名(Field Name). 定义字段类型,例如数值型.字符串型.布尔型等. 定义倒排索引相关配置,比如是否索引.记录p ...
随机推荐
- 【豆科基因组】绿豆Mungbean, Vigna radiata基因组2014NC
目录 来源 一.简介 二.结果 基因组组装 重复序列和转座子 基因组特征和基因注释 绿豆的驯化 豆科基因组复制历史 基于转录组分析的豇豆属形成 绿豆育种基因组资源 三.讨论 四.方法 材料 组装 SN ...
- python包之drmaa:集群任务管理
目录 1. drmaa简介 2. 安装和配置 3. 示例 3.1 开始和终止会话 3.2 运行工作 3.3 等待工作 3.4 控制工作 3.5 查询工作状态 4. 应用 4.1 写一个简单应用 4.2 ...
- Docker将容器制作成镜像并提交到远程仓库
Docker将容器制作成镜像并提交到远程仓库 步骤如下 先在dockerhub上创建一个自己的用户https://hub.docker.com/.或者在阿里云也可以. 2. 然后先创建一个空的镜像名. ...
- ZAQI
mysql> CREATE TABLE emploee ( -> name CHAR(64) NOT NULL, -> email CHAR(64), -> password ...
- mongoDB整个文件夹拷贝备份还原的坑
现网有一个mongoDB数据库需要搬迁到新服务器,开发那边的要求是先搬迁现在的数据库过去,然后剩下的以后他们用程序同步. 数据库大楷20G左右,现网是主备仲裁的,停掉备点,拷贝了全部文件. 新服务器也 ...
- C++ 中的多重继承的问题
如何正确使用C++多重继承 BY R12F · PUBLISHED 2011年06月17日 · UPDATED 2012年03月11日 原创文章,转载请注明:转载自Soul Apogee本文链接地 ...
- 12. Fedora 中文乱码问题
1. Rhythmbox(音乐播放器乱码) yum install python-mutagen mid3iconv -e GBK *.mp3 2. totem电影播放机播放列表乱码解决1).修改to ...
- RecyclerView实现侧滑删除、置顶、滑动
1.首先在build.gradle里添加 compile 'com.github.mcxtzhang:SwipeDelMenuLayout:V1.2.1' 2.设置recyclerView的item布 ...
- Linux学习 - fdisk分区
一.fdisk命令分区过程 系统一旦重启,分区将消失 1 添加新硬盘 直接在虚拟机上添加 2 查看新硬盘 fdisk -l 3 分区 fdisk /dev/sdb fdisk进入/dev/sdb硬件设 ...
- shell脚本统计多个CPU利用率
本节主要内容:top命令统计CPU的利用率 一,问题分析 MySQL在Linux下是多线程的,而且只能将多个线程分布到一个CPU上.因此,使用小型服务器,或者PC SERVER,多个CPU利用率并不高 ...