Index用不好，麻烦事不会少；

一、管理方式

ElasticSearch作为最常用的搜索引擎组件，在系统架构中发挥极其重要的能力，可以极大的提升数据的加载和检索效率；但不可否认的是，在长期的应用实践中，也发现很多不好处理的流程和场景；

从直观感觉上说，业务中对索引的使用主要涉及如图的几个流程，其核心也就是索引的结构维护与数据的流动管理两个模块；

如果数据结构比较简单且体量小，那么使用起来可能很顺手；如果数据主体复杂且会动态扩展，并且体量偏大，那么就很容易踩中一些比较坑的点；

比如：索引中字段一旦有误，调整的流程十分复杂；数据流向索引中的方式，需要根据场景灵活选择；以及数据查询时的深度分页问题；下面将围绕这些问题来总结下应对策略；

顺带补充一句，其实很多组件在应用的时候都有不太符合预期的地方，所以在集成时可以考虑编写自定义的管理程序，来解决使用时可能存在的问题；

二、结构维护

对于ES索引的结构维护，数据主体如果相对简单的话，可以考虑手动管理，但实际上使用索引时，通常主体结构都比较复杂，字段个数超过三五十都很常见，所以基于流程化的管理很有必要；

结构映射：将需要构建索引的主体结构，在字段库中统一维护，值得注意的是字段名称和类型，字段可以与关系型数据库的查询一致，但是不同组件类型的描述不一样，尤其对ES来说，如果字段类型不合理，会影响搜索的使用；

索引结构：在实际的业务场景中，字段的信息是会动态变化的，这就会给索引结构的维护带来很多麻烦，字段的增减都好管理，但是如果涉及类型的变动，则存在索引重建的过程，会导致数据多次重新调度，这也是风险较高的操作；

程序维护：这种结构维护的机制，其核心目的是把整个流程进行程序化管理，避免人工进行干预，以此来确保索引结构的稳定扩展；

不得不提的一个经验教训，曾经在管理业务日志的索引结构时，出现过一次误删动作，好在可以重新构建和数据备份恢复，但是依旧给心里留下了几厘米的阴影，此后也将维护流程彻底程序化，避免失误动作发生；

三、数据调度

1、同步方案

数据的调度管理，其本质就是将数据从一个容器向另一个容器搬运或者拷贝，其核心操作就是读和写两个动作，但是为了让流程具备容错和稳定性，通常需要做策略和方案的设计；

同步双写：对数据的实时性要求极高，通常在一个事务中完成数据的双写动作，保证数据层面的强一致性；

异步解耦：在完成数据库的写动作之后，基于MQ消息解耦索引的写入，流程存在轻微的延迟，如果消费失败会导致数据缺失；

定时任务：通过任务调度的方式，以指定的时间周期执行新增数据的同步机制，存在明显的时效问题；

组件同步：采用合适的同步组件，比如官方提供的组件或者一些第三方开源的组件，在原理上与任务同步类似；

数据同步的选型方案有多种，如何选择完全看具体的场景，在过往的使用过程中，对于核心业务会采用同步双写，对于内部的活动类业务会采用异步的方式，对于业务日志会采用任务调度，对于系统的监控或执行日志则多是依赖同步组件；

2、中断和恢复

无论采用何种方式将数据同步到索引中，都不得不面对一个灵魂问题，如果流程突然异常中断，恢复后如何保证索引数据不丢失？这个问题适应于很多复杂的流程；

容错性是衡量一个复杂流程的核心指标，比如在索引数据同步的过程，需要短暂性的暂停，或者流程被迫中断时，都应该具备恢复后自动修复索引中数据缺失的能力；

ES实践中一个非常经典的问题，修改索引的结构时需要进行索引重建，此时要将当前索引迁入临时索引中，在完成索引结构调整之后，需要从临时索引中迁回数据，在此过程中，可以对服务交互的索引名称动态调整；

当然也可以直接使用临时索引作为交互索引，避免一次迁移动作，这种动态的识别需要在服务中嵌入，在整个reindex过程中要避免手动干预，个人还是更相信程序的安全性和准确性；

四、刷新策略

在向ES索引中写数据时，存在三种不同的数据刷新机制，查看6.8版本的设置中，参数refresh_interval设置的是1s时间，即执行写入动作1秒后数据才可以被搜索到，避免频繁写入消耗过多的资源；

NONE：默认的刷新策略，请求提交之后不会等待数据刷新，降低资源消耗但数据实时性低；

IMMEDIATE：请求提交后立即刷新索引，数据的实时性很高但是资源消耗过大，API文档中建议测试使用；

WAIT_UNTIL：请求提交之后会等待索引刷新完成才会结束，相对来说是一种比较平衡的策略；

刷新机制对于索引的数据维护来说，主要在增删改的动作中，对即时查询有直接的影响，至于如何选择还是要结合具体的场景，尤其与同步方案关联密切，也可以在索引交互中动态维护策略，来应对不时之需；

五、深度分页

对于数据查询来说，几乎都存在分页的需求，在常见的应用中，不断下拉的功能都是存在最大的极限值；

ES中常用From/Size进行分页查询，但是存在一个限制，在索引的设置中存在max_result_window分页深度的限制，6.8版本默认值是10000条，即10000之后的数据无法使用From/Size翻页；

先从实际应用场景来分析，大多数的翻页需求最多也就前10页左右，所以从这个角度考虑，ES的翻页限制在合理区间，在实践中也存在对部分索引调高的情况，暂未出现明显问题；

再从技术角度来思考一下，如果翻页的参数过大意味着更多的数据过滤，那计算资源的占用也会升高，ES引擎的强大在于搜索能力，检索出符合要求的数据即可；

不管是ES还是其它类似的分布式存储组件，甚至是MySQL分库分表模式，其本质都是数据分布在不同服务节点的不同数据片上；常规的执行原理都是给请求分配一个主节点，协调各个节点执行相同的查询，并完成结果汇总和响应，深度分页时计算资源的占用自然非常高；

如果一定需要深度分页，在6.8的版本中提供了Scroll或Search-After两种其他的方式，用法参考相关文档即可。

六、参考源码

编程文档：

https://gitee.com/cicadasmile/butte-java-note

应用仓库：

https://gitee.com/cicadasmile/butte-flyer-parent

ElasticSearch这些坑记得避开的更多相关文章

Elasticsearch入坑指南之RESTful API
Elasticsearch入坑指南之RESTful API Tags:Elasticsearch ES为开发者提供了非常丰富的基于Http协议的Rest API,通过简单的Rest请求,就可以实现非常 ...
ElasticSearch入坑指南之概述及安装
---恢复内容开始--- ElasticSearch入坑指南之概述及安装了解ElasticSearch ElasticSearch(简称ES)基于Lucene的分布式全文检索引擎.使用ES可以实现近 ...
Elasticsearch 填坑记
前言技术的发展日新月异,传统企业数据库Oracle.SqlServer.DB2,Mysql等在今日不断的被各种大厂自研数据库取代,当然也有类似Elasticsearch等优秀的满足海量数据所使用的开 ...
Elasticsearch 分页坑之---评分一致导致数错乱
面试:你懂什么是分布式系统吗?Redis分布式锁都不会?>>> 1.背景介绍最近搞es搜索,match查询默认按照评分排序,发现有一部分数据评分一致,一开始也没注意,客户端调用 ...
centos 7( linux )下搭建elasticsearch踩坑记
原文:https://blog.csdn.net/an88411980/article/details/83150380 概述公司最近在做全文检索的项目,发现elasticsearch踩了不少 ...
Python日期存入elasticsearch的坑
今天在消费kafka数据到elasticsearch(以下简称es)中的时候遇到一个问题,也是一个坑,折腾了半天,后来发现得来全不费工夫,全是白忙活啊!!! 问题如下: kafka数据中有一个字段是时 ...
elasticsearch 踩坑
1.elasticsearch head安装集群连不上,修改配置 add http.cors.enabled: true you must also set http.cors.allow-orig ...
ElasticSearch踩坑记录
一.分词错误 [2018-02-06 14:28:30:098] --- [INFO] --- [CjhArticleSimilarityTask.java:66] --- [[SimilarityC ...
安装elasticsearch的坑
elasticsearch启动报“此时不应有 \Common 原因 Java 环境变量出错解决修改 elasticsearch.bat , 添加一句 : SET params='%*' SET J ...

随机推荐

HEXO-admin安装和使用（汉化版）
hi,大家好,我是KINGWDY,众所周知我用的是hexo,写博文首先要在终端输入hexo n xxxxx,然后打开MWeb PRO开始写md,但是,这很麻烦,就在我一筹莫展之际,我看到了这篇博文-- ...
ABC206 F - Interval Game 2 （区间DP，博弈论，SG函数）
题面题意很简单 A l i c e \tt Alice Alice 和 B o b \tt Bob Bob 在博弈.摆在他们面前有 N \rm N N 个区间 [ l i , r i ) \rm[l ...
【JDBC】学习路径9-dbcp数据源的使用
第一章:下载要下载三个东西:commons pool.commons log.dbcp dbcp中有些东西是依赖于commons pool 和 commons log 的. 缺一不可,否则无法正确运 ...
面试突击79：Bean 作用域是啥？它有几种类型？
Spring 框架作为一个管理 Bean 的 IoC 容器,那么 Bean 自然是 Spring 中的重要资源了,那 Bean 的作用域是什么意思?又有几种类型呢?接下来我们一起来看. PS:Java ...
Redis图形化管理工具
一.treeNMS Redis做为现在web应用开发的黄金搭担组合,工作中的项目大量使用了Redis,treeNMS是一款用于JAVA语言开发的Redis管理工具:treeNMS管理工具,直接到htt ...
mac_VMWare安装总结
MacOS 安装VmWare 总结如果之前安装过virtualBox,virtualBox的内核扩展会影响到VmWare的使用 *比如会导致VMWare虽然可以安装,却无法创建虚拟机这是需要执行以 ...
Karmada v1.3：更优雅更精准更高效
摘要:最新发布的1.3版本中,Karmada重新设计了应用跨集群故障迁移功能,实现了基于污点的故障驱逐机制,并提供平滑的故障迁移过程,可以有效保障服务迁移过程的连续性(不断服). 本文分享自华为云社区 ...
QT学习（五）----360界面制作（2终结）
继续上一章的360新特性界面.源代码:http://download.csdn.net/detail/zhangyang1990828/5241242 上一章中实现了整个界面的纯UI设计,这次我们让它 ...
创建x11vnc系统进程
〇.前言为方便使用vnc,所以寻找到一个比较好用的vnc服务端那就是x11vnc,索性就创建了一个系统进程一.环境系统:银河麒麟v4-sp2-server 软件:x11vnc[linux下].V ...
引擎之旅 Chapter.2 线程库
预备知识可参考我整理的博客 Windows编程之线程:https://www.cnblogs.com/ZhuSenlin/p/16662075.html Windows编程之线程同步:https:// ...

ElasticSearch这些坑记得避开