文章转载自:

https://mp.weixin.qq.com/s?__biz=MzI2NDY1MTA3OQ==&mid=2247484454&idx=1&sn=43e95a27bd8635b73d78a23db79407fe&chksm=eaa82c0edddfa518e979b4b4fe5f6b6cf933b30f6177c663bb006148e5a1ef0d47684a8aac92&scene=21#wechat_redirect

1、别名分类

别名在Elasticsearch中有两种分类。

1.1 索引别名

官方释义: 索引别名可以指向一个或多个索引,并且可以在任何需要索引名称的API中使用。 别名为我们提供了极大的灵活性。它们允许我们执行以下操作:

1)在正在运行的集群上的一个索引和另一个索引之间透明切换;

2)对多个索引进行分组组合(例如,lastthreemonths的索引别名:是过去3个月索引 logstash201903, logstash201904, logstash_201905的组合);

3)在索引中的文档子集上创建“视图”(结合业务场景,会提升检索效率)。

通俗解释: 索引别名类似:windows的快捷方式,linux的软链接,mysql的视图。

前提:Elasitcsearch创建索引后,索引名不允许改。很多业务场景下单一索引可能无法满足要求。

场景1:PB级别增量数据,借助rollover api实现,由基于日期的n个索引组成,显然,对外提供服务使用别名会很便捷。

场景2:试想,线上提供服务的某个索引出了问题,比如:某字段分词定义不准确,如何保证对外提供服务不停止(不更改业务代码)的前提下更换索引,显然,别名更合适。

注意:实际业务场景使用别名会很方便、灵活、快捷、业务松耦合!!

1.2 字段别名

在Elasticsearch Mapping定义的6.4+版本才有的字段类型。

通俗解释:

试想一下有一种业务场景。比如在实际的业务开发中:需要对Facebook、twitter行采集,采集入库的是两个业务团队。

他们对content,分别使用了两个字段。其中一个是,content。另外一个是cont。 这时候存储到elasticsearch会有两个字段。

这样如果我们在检索、写业务代码的时候,是不是要写两个不同的字段来处理呢? 如果有可能写成一个字段,代码方面就很避开业务耦合,就很方便了。

我认为这是字段别名的由来。

2、索引别名实践

2.1 假设没有别名,如何处理多索引检索?

方式一:多索引逗号分隔检索。

POST visitor_logs_2017,visitor_logs_2018/_search

方式二:通配符索引检索。

POST visitor_logs_*/_search

2.2 有了别名后,操作变得简单

实战中,我们不需要知道操作的实际索引名称,我们可以透明地更改别名引用的索引而不会影响使用别名的用户。

步骤1:别名关联已有索引。

POST /_aliases?pretty

{

  "actions": [

    {

      "add": {

        "index": "visitor_logs_2017",

        "alias": "visitor_logs"

      }

    },

    {

      "add": {

        "index": "visitor_logs_2018",

        "alias": "visitor_logs"

      }

    }

  ]

}

步骤2:使用别名检索

GET /visitor_logs/_search

3、索引别名的好处

3.1 大数据量的管理

场景: 实战中,可能需要基于时间的数据保留策略(利用rollover机制实现),并从系统中删除旧数据。 使用索引别名:

好处1:来简化从Elasticsearch中删除数据的过程。

好处2:在没有任何停机时间的情况下从Elasticsearch中删除最旧的数据,不会出现任何查询中断,也不会进行任何客户端更改。

基于时间索引的实现机制如下:

推荐阅读:

https://gitbook.cn/books/5c52c6923417565017a61ce0/index.html

试想一下:如果不是基于时间的索引,而使用大索引,删除历史数据会发生什么?

答案:

1、删除索引数据只能使用:deletebyquery,相比删除索引,deletebyquery删除数据只是逻辑删除;

2、真正的删除实际是段合并后的物理删除分段,也就是deletebyquery后,有一段时间磁盘空间不降反升。此时的检索效率会非常低。

3.2 用户无感知的重建索引

实战中,索引的设计可能不是一步到位。 随着业务的扩展,可能会在开发的中后期,调整索引Mapping结构, 比如:

1)iksmart改成ikmax_word分词以高效分词,

2)long类型改成keyword以提升检索效率,

3)修改索引分片数以便于机器横向扩展,

4)索引分成更小粒度的索引等以提升性能。

通常的做法,都需要借助:reindex操作完成索引的迁移。 如果要确保线上环境的可靠运行且用户无感知(即无需告知用户,不影响用户的业务),使用别名指向更改前和更改后的索引是 绝佳方案。

实战举例:

POST /_aliases?pretty

{

  "actions": [

    {

      "remove": {

        "index": "visitor_logs_2018",

        "alias": "visitor_logs"

      }

    },

    {

      "add": {

        "index": "visitor_logs_2018_01",

        "alias": "visitor_logs"

      }

    }

  ]

}

试想一下,如果没有索引别名呢?

答案:

1、无法保证查询的连续性;

2、无法保证线上业务查询的可靠性(需要告知用户,业务中断一段时间)。

4、索引别名常见问题及坑解读

问题1:ES批量插入可以使用别名插入吗?

会报错:

no write index is defined for alias[xxx]....

注意:索引别名不是在任何地方都通用。写入或更新数据的时候需要指明物理索引,不要向别名写入数据。

问题2:ES怎么获取所有别名信息 alias?

或者问题:如何通过索引别名查找实际索引名称?

GET _cat/aliases

返回信息:

visitor_logs visitor_logs_2017 - - -

.kibana      .kibana_1         - - -

visitor_logs visitor_logs_2018 - -

`

问题3:使用别名和基于索引效率一样吗?

是一致的。

前提:索引和别名指向相同的数据,相同的检索条件。

原理:索引别名只是物理索引的软链接名称而已。

问题4:如何使用别名提升检索效率?

方式一:基于时间创建索引,指定多索引别名。 比如分为:近1年索引别名,近3个月索引别名,近1个月索引别名,近1周索引别名,近3天索引别名。 检索的时候,先 敲定时间范围,然后在指定范围的别名下检索。

核心原理:物理上基于时间做了分隔,再加上冷热数据分离机制,会极大缩小了检索样本。

方式二:使用filter 别名或者 路由别名机制,提升效率。 filter Alias上代码,实际业务中极易被忽视,但会极大提升效率。

POST /_aliases

{

    "actions" : [

        {

            "add" : {

                 "index" : "test1",

                 "alias" : "alias2",

                 "filter" : { "term" : { "user" : "kimchy" } }

            }

        }

    ]

}

路由机制参考官方文档即可。

5、字段别名实践一把

星友的问题: 

“Aliasdatatype,这个数据类型,在现实工作中的使用场景是什么?看官方文档,没有很好理解?”

字段别名原理第一部分已详细解释,不再赘述。 这里实践一把,加深理解。

PUT trips

{

  "mappings": {

    "_doc": {

      "properties": {

        "distance": {

          "type": "long"

        },

        "route_length_miles": {

          "type": "alias",

          "path": "distance"

        },

        "transit_mode": {

          "type": "keyword"

        }

      }

    }

  }

}

注意: 当用户使用检索时,实际可以使用routelengthmile字段替代distance做检索,以达到distance一样的效果。

6、小结

实战中,一般在开发 中后期才发现索引别名的妙处。正如文中分析:1、高效索引管理;2、用户无感知维护数据修改更新。

建议:相同索引别名的物理索引有 一致的Mapping和数据结构,以提升检索效率。

注意:发挥索引别名在检索方面的优势,在写入和更新还得使用 物理索引。

Elasticsearch基础但非常有用的功能之一:别名的更多相关文章

  1. Elasticsearch基础但非常有用的功能之二:模板

    文章转载自: https://mp.weixin.qq.com/s?__biz=MzI2NDY1MTA3OQ==&mid=2247484584&idx=1&sn=accfb65 ...

  2. Elasticsearch 基础介绍

    # Elasticsearch简介 ## 基础概念 ​ Elasticsearch由Shay banon在2004年进行初步开发,并且在2010年2月发布第一个版本. ​ 此后Shay banon在2 ...

  3. ELK(elasticsearch+kibana+logstash)搜索引擎(二): elasticsearch基础教程

    1.elasticsearch的结构 首先elasticsearch目前的结构为 /index/type/id  id对应的就是存储的文档ID,elasticsearch一般将数据以JSON格式存储. ...

  4. ipython, 一个 python 的交互式 shell,比默认的python shell 好用得多,支持变量自动补全,自动缩进,支持 bash shell 命令,内置了许多很有用的功能和函数

    一个 python 的交互式 shell,比默认的python shell 好用得多,支持变量自动补全,自动缩进,支持 bash shell 命令,内置了许多很有用的功能和函数. 若用的是fish s ...

  5. XMind十大最有用的功能

    XMind十大最有用的功能 XMind是一款顶级商业品质的思维导图软件和头脑风暴软件,在企业和教育领域都有很广泛的应用,XMind功能全面,易上手,在此小编给大家整理出了XMind十大最有用的功能以供 ...

  6. RAC和单节点数据库的区别有哪些?RAC最有用的功能是什么?

    区别 (1)RAC有2个以上的实例,单节点只有1个实例 (2)RAC具有实例级别的高可用 (3)实例与实例之间通过内联网络交换数据,单节点不可 (4)RAC每个节点都有自己套SGA.后台进程.redo ...

  7. 第三百六十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索功能

    第三百六十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索功能 Django实现搜索功能 1.在Django配置搜索结果页的路由映 ...

  8. Elasticsearch 基础入门

    原文地址:Elasticsearch 基础入门 博客地址:http://www.extlight.com 一.什么是 ElasticSearch ElasticSearch是一个基于 Lucene 的 ...

  9. ElasticSearch 基础 1

    ElasticSearch 基础=============================== 索引创建 ========================== 1. RESTFUL APIAPI 基本 ...

随机推荐

  1. zip格式文件编码检测

    解压后文件名乱码 由于zip格式文件无编码存储的结构,因此解压时无法知道原先的编码. 当解压zip格式文件时使用的编码和原编码不一致时,就可能会出现解压后文件名乱码问题. 猜测编码 基于上述问题,需要 ...

  2. ElementUI嵌套页面及关联增删查改实现

    @ 目录 前言 一.ElementUI如何在原有页面添加另外一个页面并实现关联增删查改? 二.实现步骤 1.ElementUI代码 2.思路:很简单 1.1 首先通过el-row.el-col.el- ...

  3. linux安全之网络设置

    可以通过/etc/sysctl.conf控制和配置Linux内核及网络设置. # 避免放大攻击 net.ipv4.icmp_echo_ignore_broadcasts = 1 # 开启恶意icmp错 ...

  4. 如何记录分析你的炼丹流程—可视化神器Wandb使用笔记【1】

    本节主要记录使用wandb记录训练曲线以及上传一些格式的数据将其展示在wandb中以便分析的方法,略过注册安装部分(可使用pip intall wandb安装,注册相关issue可上网搜索),文章着重 ...

  5. 一文带你弄懂 CDN 技术的原理

    对于 CDN 这个东西,相信大家都有耳闻,感觉既陌生但又熟悉.最近深入了解了一下 CDN,这才发现原来 CDN 如此重要!今天就跟大家科普一下 CDN 是什么,以及为啥要有 CDN,最后再讲一下 CD ...

  6. 技术分享 | 简单测试MySQL 8.0.26 vs GreatSQL 8.0.25的MGR稳定性表现

    欢迎来到 GreatSQL社区分享的MySQL技术文章,如有疑问或想学习的内容,可以在下方评论区留言,看到后会进行解答 GreatSQL社区原创内容未经授权不得随意使用,转载请联系小编并注明来源. M ...

  7. ASP.NET Core 6框架揭秘实例演示[32]:错误页面的集中呈现方式

    由于ASP.NET是一个同时处理多个请求的Web应用框架,所以在处理某个请求过程中出现异常并不会导致整个应用的中止.出于安全方面的考量,为了避免敏感信息外泄,客户端在默认情况下并不会得到详细的出错信息 ...

  8. 3.0.0 alpha 重磅发布!九大新功能、全新 UI 解锁调度系统新能力

    2022 年 4 月 22 日,Apache DolphinScheduler 正式宣布 3.0.0 alpha 版本发布!此次版本升级迎来了自发版以来的最大变化,众多全新功能和特性为用户带来新的体验 ...

  9. java学习第一天.day01

    Java的编译和运行机制 java文件编译成字节码文件后加载到java缓存中jvm Java的基本语法 1.Java语言严格区分大小写 2.一个Java源文件里可以定义多个Java类,但不能存在多个p ...

  10. JUC源码学习笔记5——线程池,FutureTask,Executor框架源码解析

    JUC源码学习笔记5--线程池,FutureTask,Executor框架源码解析 源码基于JDK8 参考了美团技术博客 https://tech.meituan.com/2020/04/02/jav ...