Elasticsearch数据建模笔记

数据建模

数据建模是创建数据模型的过程

数据模型是对真实世界进行抽象描述的一种工具和方法，实现对现实世界的映射
三个过程：概念模型=》逻辑模型=》数据模型

数据模型：结合具体的数据库，在满足业务读写性能等需求的前提下，确定最终定义

数据建模：功能需求+性能需求

逻辑模型（功能需求）

实体属性
实体之间的关系
搜索相关的配置

物理模型（性能需求）

索引模版

分片数量

索引Mapping

字段配置
关系处理

对字段进行建模

字段类型：

Text vs Keyword

Text

用于全文本字段，文本会被Analyzer分词
默认不支持聚合分析及排序。需要设置fielddata为true

Keyword

用于id,枚举及不需要分词的文本。例如电话号码，email地址，手机号码，邮政编码，性别等
适用于Filter(精确匹配)，Sorting和Aggregations

设置多字段类型

默认会为文本类型设置成text,并且设置一个keyword的子字段
在处理人类语言时，通过增加“英文”，“拼音”和“标准”分词器，提高搜索结果

结构化数据

数值类型

尽量选择贴近的类型。例如可以用byte,就不要用long

枚举类型

设置为keyword。即便是数字，也应该设置成keyword,获取更加好的性能

其他

日期/布尔/地理信息

检索

如不需要检索

Enable设置成false

如不需要检索

Index设置成false

对需要检索的字段，可以通过如下配置，设定存储粒度

Index_options/Norms：不需要归一化数据时，可以关闭

聚合及排序

如不需要排序和聚合分析

Enable设置成false

如不需要排序或者聚合分析

Doc_value/fielddata设置成false

更新频繁，聚合查询频繁的keyword类型的字段

推荐eager_global_ordinals设置为true

额外的存储

是否需要专门存储当前字段数据
Disable _source:节约磁盘；适用于指标型数据

一般建议考虑增加压缩比
无法看到_source字段，无法ReIndex 无法Upadte
Kibana中无法做discovery

最佳实践

建模建议一：如何处理关联关系

建模建议二：避免过多字段

一个文档中，最好避免大量的字段

过多的字段数不容易维护
Mapping信息保存在Cluster State中，数据量过大，对集群性能会有影响（Cluster State信息需要和所有的节点同步）
删除或者修改数据需要reindex

默认最大字段数是1000，可以设置index.mapping.tatal_fields.limt限定最大字段数
Dynamic vs Strict
- Dynamic（生产环境中，尽量不用打开Dynamic）
  - true-未知字段会被自动加入
  - false-新字段不会被索引。但是会保存在_source
  - strict-新字段不会被索引，文档写入失败
- Strict
  - 可以控制道字段级别　　
当Dynamic设置为True,同时采用扁平化的设计且键值对过多会导致字段数量的膨胀，通过Nested对象保存key/value可以减少字段数量。

建模建议三：避免正则查询
- 通过 Inner Object避免低性能的正则匹配

{

  "version":{

  "display_name":"7.1.0",

  "marjor":7,

  "minor":1,

  "hot_fix":0

  }

}

建模建议四：避免空值引起的聚合不准确

使用Null_Value解决空值的问题

建模建议五：为索引的Mapping加入Meta信息便于管理

{

  "mappings": {

    "_meta": {

      "software_version_mapping": "1.0"

    }

  }

}

Mapping字段的相关设置

https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-params.html

Elasticsearch数据建模笔记的更多相关文章

[转] [Elasticsearch] 数据建模 - 处理关联关系(1)
[Elasticsearch] 数据建模 - 处理关联关系(1) 标签: 建模elasticsearch搜索搜索引擎 2015-08-16 23:55 6958人阅读评论(0) 收藏举报分类: ...
Elasticsearch 数据建模指南
文章转载自:https://mp.weixin.qq.com/s/vSh6w3eL_oQvU1mxnxsArA 0.题记我在做 Elasticsearch 相关咨询和培训过程中,发现大家普遍更关注实 ...
ES 32 - Elasticsearch 数据建模的探索与实践
目录 1 什么是数据建模? 2 如何对 ES 中的数据进行建模 2.1 字段类型的建模方案 2.2 检索.聚合及排序的建模方案 2.3 额外存储的建模方案 3 ES 数据建模实例演示 3.1 动态创建 ...
ElasticSearch 数据建模
公号:码农充电站pro 主页:https://codeshellme.github.io 通常在使用 ES 构建数据模型时,需要考虑以下几点: 字段类型是否需要搜索与分词是否需要聚合与排序是否需 ...
ElasticSearch——数据建模最佳实践
如何建模 mapping 设计非常重要,需要从两个维度进行考虑: 功能:搜索.排序.聚合性能:存储的开锁.内存的开销.搜索的性能 mapping 注意事项: 加入新字段很容易(必要时需要 updat ...
论Elasticsearch数据建模的重要性
文章转载自: https://mp.weixin.qq.com/s?__biz=MzI2NDY1MTA3OQ==&mid=2247484159&idx=1&sn=731562a ...
Elasticsearch 6.x版本全文检索学习之数据建模
1.什么是数据建模. 答:数据建模,英文为Data Modeling,为创建数据模型的过程.数据模型Data Mdel,对现实世界进行抽象描述的一种工具和方法,通过抽象的实体及实体之间联系的形式去描述 ...
head first python菜鸟学习笔记（第七章） ——web应用之为数据建模
问题1. #意思是从athletelist.py中导入AthleteListfrom athletelist import AthleteList 源程序代码 import pickle from a ...
Cassandra数据建模
1. 概述 Apache Cassandra将数据存储在表中,每个表都由行和列组成.CQL(Cassandra查询语言)用于查询存储在表中的数据.Apache Cassandra数据模型基于查询并针 ...

随机推荐

C语言数据转换
1.在我们编码的时候可能一个表达式中的数字类型是不同的,所以我们的首要的工作就是要把它们转换成相同的类型,然后在进行计算.这个转换的过程就就做隐式类型转换,完全由计算机完成. 2.隐式类型转换有一定的 ...
FPGA底层的时钟布线以及内部layout
https://wenku.baidu.com/view/441549fef111f18582d05a70.html 全局时钟是最简单的最可预测的时钟,时钟方案:有专用的时钟输入(提供最短的始终输出延 ...
[LC] 45. Jump Game II
Given an array of non-negative integers, you are initially positioned at the first index of the arra ...
Oracle 11g 静默安装过程（centos7）
开启机器,本次实例分配的ip是:192.168.3.197(Xshell ssh连接) 2 安装unzip 工具.vim编辑器(个人习惯,vi也可以) 3 在/etc/hosts文件中添加本机IP跟主 ...
Nginx笔记总结一:基本安装和配置
1. Nginx安装下载地址和安装依赖包 http://nginx.org/download/nginx-1.9.14.tar.gz yum -y install pcre pcre-devel z ...
吴裕雄--python学习笔记：爬虫包的更换
python 3.x报错:No module named 'cookielib'或No module named 'urllib2' 1. ModuleNotFoundError: No module ...
spring cloud实战 1-高可用注册中心
创建父maven项目提交代码至GitHub 创建eureka-server-1 项目搭建两种方式: 父pom中继承spring-boot-starter-parent,子pom中直接结成父pom.该 ...
机器学习的盛宴：NIPS 2015
作者:微软亚洲研究院实习生:林添冰雪王国的浪漫机器学习的盛宴 NIPS(Advances in Neural Information Processing Systems,神经信息处理系统进展大会 ...
安卓注解处理器-processor
最近在学习安卓开源框架发现,很多的开源框架都使用到了注解处理器,例如EventBus3.0.本文通过一个简单的Demo来介绍如何使用注解处理器.Demo链接为https://github.com/cu ...
从头认识js-js的发展历史
JavaScript简介 JavaScript诞生于1995年,当时,它的主要目的是处理以前有服务端语言(如Perl)负责的一些输入验证操作. JavaScript简史 1995年2月当时就职于Net ...

Elasticsearch数据建模笔记

Elasticsearch数据建模笔记的更多相关文章

随机推荐

热门专题