Elasticsearch 6.x版本全文检索学习之数据建模
1、什么是数据建模。
答:数据建模,英文为Data Modeling,为创建数据模型的过程。数据模型Data Mdel,对现实世界进行抽象描述的一种工具和方法,通过抽象的实体及实体之间联系的形式去描述业务规则,从而实现对现实世界的映射。
2、数据建模的过程。
答:第一步、概念模型,确定系统的核心需求和范围边界,设计实体和实体间的关系。
第二步、逻辑模型,进一步梳理业务需求,确定每个实体的属性,关系和约束等等。
第三步、物理模型,结合具体的数据库产品,在满足业务读写性能等需求的前提下确定最终的定义,如mysql、mongodb、elasticsearch等等。
3、Elasticsearch的数据建模,es是基于lucene以倒排索引为基础实现的存储体系,不遵循关系型数据库中的范式约定。

4、Elasticsearch的数据建模中Mapping字段的相关设置。
答:a、enabled,值包含true、false。仅存储,不做搜索或者聚合分析。
b、index,值包含true、false。是否构建倒排索引。
c、index_options,值包含docs、freqs、positions、offsets。存储倒排索引的哪些信息。
d、norms,值包含true、false。是否存储归一化相关参数,如果字段仅用于过滤和聚合分析,可以关闭。
e、doc_values,值包含true、false。是否启动doc_values,用于排序和聚合分析。
f、field_data,值为true、false。是否为text类型启动fielddata,实现排序和聚合分析。
g、store,值为true、false。是否存储该字段值。
h、corece,值为true、false。是否开启自动数据类型转换功能,比如字符串转为数字,浮点转为整型等等。
i、multifields多字段,灵活使用多字段特性来解决多样的业务需求。
j、dynamic,值为true、false、strict。控制mapping自动更新。建议为strict,或者false。
k、date_detection,值为true、false。是否自动识别日期类型。建议为false。
5、Mapping字段属性的设定流程。
答:第一步、是何种类型的字段。是日期类型还是字符串类型的。
第二步、是否需要检索字段。需要检索index设置true,否则设置为false。
第三步、是否需要排序和聚合分析。doc_values,是否启动doc_values,用于排序和聚合分析。
第四步、是否需要另行存储。store,是否存储该字段值。
6、Mapping字段属性的设定流程,是何种类型的。
答:a、字符串类型,需要分词则设定为text类型的,否则设置为keyword类型的。
b、枚举类型,基于性能考虑将其设定为keyword类型,即便该数据为整型。
c、数值类型,尽量选择铁近的类型,比如byte即可表事所有数值的时候,即选用byte,不要用long。
d、其他类型的,比如布尔类型,日期,地理位置数据等等。
7、Mapping字段属性的设定流程,是否需要检索。
答:a、完全不需要检索,排序,聚合分析的字段。enabled设置为false。
b、不需要检索的字段,index设置为false。
c、需要检索的字段,可以通过如下配置设定需要的存储粒度。index_options结合需要设定,norms不需要归一化数据时关闭即可。
8、Mapping字段属性的设定流程,是否需要排序和聚合分析。
答:不需要排序或者聚合分析功能。doc_values设定为false,fielddata设定为false。
9、Mapping字段属性的设定流程,是否需要另行存储。
答:是否需要专门存储当前字段的数据?store设定为true,即可以存储该字段的原始内容(与_source中的不相干关)。一般结合_source的enabled设定为false时候使用。
10、ES数据建模实例练习。创建博客文档blog_index。
查询博客blog_index_01的索引映射和分片,副本情况。 插入数据,然后根据指定字段进行查询。

简易的ES模型,如果博客新增了内容context字段。
url字段的store的值为true的时候,enabled的值不能设定为false。因为enabled的值设定为false,会将值存储到_source里面的。doc_values是不需要进行聚合分析的。


11、Elasticsearch关联关系处理,es不擅长处理关系型数据库中的关联关系,比如文章表blog与评论表comment之间通过blog_id关联,在es中可以通过如下两种手段变相解决。Nested Object、Parent/Child。
12、关联关系处理之Nested Object。Comments默认是Objetc Array类型,存储结果类型是对应的字段在一个括号里面。

使用nested object解决查询结果不符合要求的现象。

Nested Object Array的存储类型,nested object是独立存在的。即自己对应的字段在一个括号内。查询的结果如下所示:

13、关联关系处理之Parent/Child。Elasticsearch还提供了类似关系数据库中join的实现方式,使用join数据类型实现。

关联关系处理之Parent/Child。常见query语法包括如下几种。
a、parent_id返回某父文档的子文档。
b、has_child返回包含某子文档的父文档。
c、has_parent返回包含某父文档的子文档。


建议尽量选择使用Nested Object来解决问题。

14、Elasticsearch的Reindex,指重建所有数据的过程,一般发生在如下情况。
答:a、mappring设置变更,比如字段类型变化,分词器字段更新等等。
b、index设置变更,比如分片数更改等等。
c、迁移数据。
15、Elasticsearch提供了现成的API用于完成该工作。
答:a、_update_by_query在现有索引上重建。
b、_reindex在其他索引上重建。


数据重建的时候受源索引文档规模的影响,当规模越大的时候,所需时间越多,此时需要通过设定url参数wait_for_completion为false来异步执行,es以task来描述此类执行任务。es提供了task api来查看任务的执行进度和相关数据。

再牛逼的案例,理论,都没有官网的牛逼,下面贴一下,如何去官网学习。



找到这里,自己可以巴拉巴拉,看自己需要的版本,对应的知识点。


16、Elasticsearch数据建模的建议。
1)、数据模型版本管理,对Mapping版本管理。
包含在代码或者专门的文件进行管理,添加好注释,并加入git版本管理仓库中,方便回顾。为每个增加一个metadata字段,在其中维护一些文档相关的元数据,方便对数据进行管理。mapping版本,可以自行指定,比如每次更新mapping设置后,该version加1。
2)、防止字段过多。字段过多主要有如下的坏处。
难于维护,当字段成百上千的时候,基本很难有人能明确知道每个字段的含义。mapping的信息存储在cluster state里面,过多的字段会导致mapping过大,最终导致更新变慢。通过设置index.mapping.total_fields.limit可以限定索引中最大字段数,默认是1000。可以通过key/value的方式解决字段过多的问题,但并不完美。一般字段过多的原因是由于没有高质量的数据建模导致的,比如dynamic设置为true。也可以考虑拆分多个索引来解决问题。
![]()
作者:别先生
博客园:https://www.cnblogs.com/biehongli/
如果您想及时得到个人撰写文章以及著作的消息推送,可以扫描上方二维码,关注个人公众号哦。
Elasticsearch 6.x版本全文检索学习之数据建模的更多相关文章
- Elasticsearch 6.x版本全文检索学习之分布式特性介绍
1.Elasticsearch 6.x版本全文检索学习之分布式特性介绍. 1).Elasticsearch支持集群默认,是一个分布式系统,其好处主要有两个. a.增大系统容量,如内存.磁盘.使得es集 ...
- Elasticsearch 6.x版本全文检索学习之Search API
Elasticsearch 6.x版本全文检索学习之Search API. 1).Search API,实现对es中存储的数据进行查询分析,endpoind为_search,如下所示. 方式一.GET ...
- Elasticsearch 6.x版本全文检索学习之集群调优建议
1.系统设置要到位,遵照官方建议设置所有的系统参数. https://www.elastic.co/guide/en/elasticsearch/reference/6.7/setup.html 部署 ...
- Elasticsearch 6.x版本全文检索学习之倒排索引与分词、Mapping 设置
Beats,Logstash负责数据收集与处理.相当于ETL(Extract Transform Load).Elasticsearch负责数据存储.查询.分析.Kibana负责数据探索与可视化分析. ...
- Elasticsearch 6.x版本全文检索学习之聚合分析入门
1.什么是聚合分析? 答:聚合分析,英文为Aggregation,是es除搜索功能外提供的针对es数据做统计分析的功能.特点如下所示: a.功能丰富,提供Bucket.Metric.Pipeline等 ...
- ES 32 - Elasticsearch 数据建模的探索与实践
目录 1 什么是数据建模? 2 如何对 ES 中的数据进行建模 2.1 字段类型的建模方案 2.2 检索.聚合及排序的建模方案 2.3 额外存储的建模方案 3 ES 数据建模实例演示 3.1 动态创建 ...
- Elasticsearch全文检索学习
ElasticSearch官方网址:https://www.elastic.co ElasticSearch官方网址(中文):https://www.elastic.co/cn/ Elasticsea ...
- Elasticsearch 数据建模指南
文章转载自:https://mp.weixin.qq.com/s/vSh6w3eL_oQvU1mxnxsArA 0.题记 我在做 Elasticsearch 相关咨询和培训过程中,发现大家普遍更关注实 ...
- SpringBoot整合ElasticSearch实现多版本的兼容
前言 在上一篇学习SpringBoot中,整合了Mybatis.Druid和PageHelper并实现了多数据源的操作.本篇主要是介绍和使用目前最火的搜索引擎ElastiSearch,并和Spring ...
随机推荐
- item()方法遍历字典
Python字典的遍历方法有好几种,其中一种是for...in,这个我就不说明,在Python了几乎随处都可见for...in.下面说的这种遍历方式是item()方法. item() item()方法 ...
- 《Java基础知识》Java成员变量,成员方法,构造方法和析构方法
一 成员变量 成员变量是指类的一些属性定义,标志类的静态特征,它的基本格式如下: [访问修饰符][修饰符][类型][属性名称]= [初始值] 访问修饰符:public(公共的):protected(受 ...
- Nginx安装(我觉得我这篇可能是全网最清晰的一篇安装步骤了)
原文内容来自于LZ(楼主)的印象笔记,如出现排版异常或图片丢失等问题,可查看当前链接:https://app.yinxiang.com/shard/s17/nl/19391737/46aadb8f-5 ...
- python多线程编程-queue模块和生产者-消费者问题
摘录python核心编程 本例中演示生产者-消费者模型:商品或服务的生产者生产商品,然后将其放到类似队列的数据结构中.生产商品中的时间是不确定的,同样消费者消费商品的时间也是不确定的. 使用queue ...
- 在Join中使用FIND_IN_SET
$d['a.cold'] = 2; $d['b.PostId'] = $up_id['PostId']; $d['b.F_Id'] = $up_id['Id']; $d['WorkinTime'] = ...
- angular8 导出excel文件
angular package 1.xlsx npm install xlsx --save 2.file-saver npm install file-saver --save npm instal ...
- 错题本:ConstraintLayout 不能正常显示
理想效果: 实际效果: 原因:因为文件中一个控件的约束属性写错了 这个属性是 app:layout_constraintLeft_toLeftOf="@id/oa_setting_group ...
- MySQL数据库~~~~初识、基础数据类型
一 数据库初识 1.1 什么是数据库 数据库(DataBase,简称DB),简而言之可视为电子化的文件柜----存储电子文件的处所,用户可以对文件中的数据运行新增,截取,更新,删除等操作. 所谓数据库 ...
- Bash脚本编程之字符串处理
简介 其实这里说得字符串处理,对应的是bash官网中的[Shell Parameter Expansion],不过直接去看这部分内容实在是太难以理解了.就按照马哥所说的字符串处理会比较好理解,平常使用 ...
- IT兄弟连 HTML5教程 CSS3属性特效 CSS3背景
CSS3规范中对背景这一部分,新加入了一些有用的功能,如可以设置多个背景图片.可以指定背景大小.设置背景渐变等功能.CSS3规范中定义的背景属性新增了background-clip.backgroun ...