elasticsearch 大集群,双重别名，滚动更新分词方案

elasticsearch 滚动更新分词

国内用ik、hanlp、ansj或基于其二次开发的比较多

必然有分词变更的操作(主要是是加词)

reindex+别名可以解决一部分问题，但在大集群上会影响业务

elasticsearch写入数据时会对原始数据作分词，检索时会对查询条件作分词，以两次的分词算匹配度打分

以加词为例

加词后会导致数据大幅波动(因为查询语句的的分词结果变了，但原始数据的分词信息并没有变，同样一条查询条件，在加词前后的结果并不一致)，影响产品应用和聚合统计结果，
轻微的波动，可以解释为正常产品优化，导致50%以上甚至100%的数据波动，很难向用户解释

加词只是导致数据波动的一个最常见的原因，更改了原生的分词算法，也会导致这种结果

因此动态加词，热更新不适于这种场景

而常见的reindex+别名操作，不适合reindex耗时严重的大数据集群

常规的静态加词(把新增词加入es ik plugin要求的目录下，或直接打进jar包)需要

1暂停服务

2更新词包

3滚动更新节点(使新增词生效)，恢复es服务,这里可以恢复es服务，但恢得后会有数据波动问题存在

4重建历史索引

理论上很简单，但只限于数据量很小的情况下，提前通知，暂停个小半天维护或选择非工作日也能说得过去

数据量极大的情况下，重建历史索引耗时数周，影响正常使用，一般在国庆和春节这种长假期操作

es集群为基础服务团队维护，长久以来基本也是这种操作,基础服务团队通常只提供一个通用的解决方案，不会根据业务场景作优化调整，也不清楚产品和业务上的痛点

之前由导致的数据波动问题，严重的由专人负责，通过调整查询规则，减少波动的影响，不严重的就完全没人负责

该方案毕竟不可控，以前这里由运维统一负责，个人也懒得花心思，年前公司有放出风来要由产品线接手，个人也不想总这么折腾，就得想办法解决

实际办法很简单，没有任何技术难度，只是些应用技巧

之所以有数据波动是因为同一个analyzer加词前后行为不一致，让analyzer保持一致就可以了，索引时分词和查询时分词用的算法一致，就不会有波动问题

以ik的ik_max_word为例

{
"properties": {
"content": {
"type": "text",
"analyzer": "ik_max_word",
"search_analyzer": "ik_max_word"
}
}

前后不一致只是因为ik_max_word的行为变了，但更新词包又不是必须要变更ik_max_word

重建索引，是用加词后的analyzer重建，而并不是一定要用ik_max_word来实现

elasticsearch 大集群,双重别名，滚动更新分词方案的更多相关文章

Elasticsearch--集群管理_别名&插件&更新API
目录使用索引别名别名创建别名修改别名合并命令获取所有别名移除别名别名中过滤别名和路由 Elasticsearch插件基础知识安装插件移除插件更新设置API 使用索引别名通过 ...
docker swarm集群搭建以及使用滚动更新
基础环境,三台虚拟机 172.17.3.70 172.17.3.71 172.17.3.72 系统配置:centos 7,关闭selinux 需要优化的基础配置: [root@sw1 ~]# vim ...
Kubernetes集群中Service的滚动更新
Kubernetes集群中Service的滚动更新二月 9, 2017 0 条评论在移动互联网时代,消费者的消费行为已经“全天候化”,为此,商家的业务系统也要保持7×24小时不间断地提供服务以满足 ...
Elasticsearch集群使用ik分词器
IK分词插件的安装 ES集群环境 VMWare下三台虚拟机Ubuntu 14.04.2 LTS JDK 1.8.0_66 Elasticsearch 2.3.1 elasticsearch-jdbc- ...
剖析Elasticsearch集群系列第一篇 Elasticsearch的存储模型和读写操作
剖析Elasticsearch集群系列涵盖了当今最流行的分布式搜索引擎Elasticsearch的底层架构和原型实例. 本文是这个系列的第一篇,在本文中,我们将讨论的Elasticsearch的底层存 ...
Elasticsearch学习总结 (Centos7下Elasticsearch集群部署记录)
一. ElasticSearch简单介绍 ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口.Elasticse ...
解剖 Elasticsearch 集群 - 之一
解剖 Elasticsearch 集群 - 之一本篇文章是一系列涵盖 Elasticsearch 底层架构和原型示例的其中一篇.在本篇文章中,我们会讨论底层的存储模型以及 CRUD(创建.读取.更新 ...
剖析Elasticsearch集群系列之一：Elasticsearch的存储模型和读写操作
转载:http://www.infoq.com/cn/articles/analysis-of-elasticsearch-cluster-part01 1.辨析Elasticsearch的索引与Lu ...
ElasticSearch集群故障案例分析: 警惕通配符查询
最近ElasticSearch集群出现了 https://elasticsearch.cn/article/171 文章中描述的情况,现在转载全文警示下自己. 许多有RDBMS/SQL背景的开发者,在 ...

随机推荐

转：十大Intellij IDEA快捷键
Intellij IDEA中有很多快捷键让人爱不释手,stackoverflow上也有一些有趣的讨论.每个人都有自己的最爱,想排出个理想的榜单还真是困难.以前也整理过Intellij的快捷键,这次就按 ...
2，StructuredStreaming的事件时间和窗口操作
推荐阅读:1,StructuredStreaming简介使用Structured Streaming基于事件时间的滑动窗口的聚合操作是很简单的,很像分组聚合.在一个分组聚合操作中,聚合值被唯一保存在 ...
Android进阶——多线程系列之wait、notify、sleep、join、yield、synchronized关键字、ReentrantLock锁
多线程一直是初学者最困惑的地方,每次看到一篇文章,觉得很有难度,就马上叉掉,不看了,我以前也是这样过来的.后来,我发现这样的态度不行,知难而退,永远进步不了.于是,我狠下心来看完别人的博客,尽管很难但 ...
[转]Linux命令行上传文件到百度网盘 bypy
安装软件工具: apt-get install python-pip pip install requests pip install bypy 授权登陆: 执行 bypy info,显示下边信息,根 ...
part6 城市页面搜索内容开发
keyword 监听时间做一个节流处理 keyword为input输入的内容 //当逻辑卡壳的时候可以试着重启服务器,浏览器当搜索内容出现很多的时候内容无法滚动可以引入 better-scro ...
个人网站一步一步搭建——（10）后台登陆dome
Service+ui+dto架构 AJAX 方式登陆小DEMO 后面的.得配合vue 做后台管理了... 还是一个个dome做
流程引擎表单引擎的常见问题技术交流-关于广州xx公司对驰骋BPM提出
第1章: 先使用.net 再使用java,数据迁移问题?会存在哪些问题. RE: .net 版本的ccflow与java版本的jflow系列版本都是一个数据库结构,一个操作手册,流程模版,表单模版通用 ...
Win10教育版VL版kms密钥激活
1.右键开始图标,或者win+x,选择Windows PowerShell(管理员): 2.依次执行下面的命令,分别表示安装win10教育版密钥,设置kms服务器,激活win10教育版: slmgr ...
maven项目从本地向本地仓库导入jar包
方法一(推荐): <dependency> <groupId>guagua-commons</groupId> <artifactId>guagua-c ...
VUE获取焦点
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...

elasticsearch 大集群,双重别名，滚动更新分词方案

elasticsearch 大集群,双重别名，滚动更新分词方案的更多相关文章

随机推荐

热门专题