使用 INFINI Console 实现 Elasticsearch 的增量数据迁移

功能介绍 #

在 INFINI Console 1.3.0 版本里，数据迁移功能增加了对增量迁移的支持。这篇文章将会介绍增量迁移的具体使用方法和实现原理。

场景介绍 #

以常见的日志场景为例，假设 A 集群有一个用来记录线上 HTTP 请求记录的索引 request-logs，数据结构如下:

{

"request_body": {...},

"request_header": {...},

"method": "POST",

"request_time": "2023-06-09 12:30:09+800" // 客户端记录请求的时间

"@timestamp": "2023-06-09 12:30:11+800" // 请求写入ES的时间

}

我们希望完整导入这个索引的数据到另外一个集群 B 的 request-logs。要想确保导入的数据完整，我们首先需要考虑数据写入的延迟问题：

A 集群的数据写入可能会有延迟。日志往往是从不同的节点收集异步上传的，考虑到网络环境波动等情况，最终日志写入 Elasticserach 的时间会有差异。

写入 Elasticsearch 的数据并不会立刻对查询请求可见，Elasticsearch 会异步刷新写入的数据。

也就是说，我们假设每一条请求日志从采集到写入 ES 到最终可以被查询的延迟为d，每次进行增量迁移的时候，我们可以完整迁移的数据范围就是[当前时间 - 上次迁移的时间 - d, 当前时间 - d)。只要数据写入的延迟不超过d，我们就可以从集群 A 查询到完整的数据集写入集群 B。

集群 A 的数据有更新操作？ #

在上述的日志场景里，我们通常不会对写入的日志文档进行后续的更新操作，每一条文档写入后都是不可变的，我们只需要筛选@timestamp字段就可以找到需要迁移的数据了，而且每条数据只需要迁移一次就可以确保目标集群的数据一致。

如果源数据有更新，那我们应该如何进行增量迁移呢？通常情况下，每次更新操作我们都会记录文档更新的时间到update_time字段，这样我们就可以使用update_time字段来进行增量数据的迁移。

假设在第一次迁移的时候，索引 A 存有以下数据，我们在进行第一次迁移操作后，数据可以完整写入目标索引：

如果在第二次迁移之前，索引 A 中有一条旧的记录被更新，这个时候，迁移流程可以通过update_time字段检测到这一条数据，复制并覆盖目标集群的旧数据记录：

可以看到，即使源数据有更新，只要我们记录了每一条数据的更新时间，迁移过程最后写入集群 B 的数据依然是完整且一致的。

集群 A 的数据有删除操作？ #

如果源集群的数据有删除操作，基于上述的数据迁移逻辑，第二次迁移过程是无法判断已经迁移的数据是否被删除的：

如果我们希望迁移的数据完整，需要避免对源集群的数据进行删除操作。我们可以标记文档为deleted，但是不做实际删除操作，这样我们就可以通过文档删除（更新）操作的时间来进行完整的数据迁移：

使用 INFINI Console 来进行增量数据的迁移 #

在 INFINI Console 里，我们可以使用数据工具 - 数据迁移功能来对数据进行增量迁移。作为示例，我们新建一个数据迁移任务，把.infini_requests_logging-000002索引的数据迁移到目标集群的request索引。

我们需要迁移到一个新创建的索引，在Initialize Configuration步骤，根据提示配置目标索引的mapping和setting信息。如果不需要特殊配置，可以使用Auto Optimize功能自动填充。

接下来我们需要配置数据写入的更新字段和写入的延迟。请求日志通过timestamp字段记录请求时间，通常延迟不会超过 1 分钟，我们在Migrate Setting步骤里配置相应的Incremental信息。如果历史数据量比较大或者增量任务的运行间隔较长，我们也可以配置Partition分区规则来拆分任务为更细的粒度，避免因单个任务长时间导出数据对 ES 产生过高的负载。

最后，在创建任务时，我们勾选Detect Incremental Data，然后设置任务每 15 分钟检测一次增量数据。

点击开始后，增量任务就会开始运行。第一次运行时会对历史数据进行全量迁移，后续每 15 分钟会自动检测新数据并迁移到目标索引。

总结 #

除了数据一致性，迁移功能的设计也需要兼顾性能、稳定性、ES 版本兼容性等，INFINI Console 提供了一套操作简便的数据迁移解决方案，可以用于各种场景的数据迁移需求。

使用 INFINI Console 实现 Elasticsearch 的增量数据迁移的更多相关文章

全量、增量数据在HBase迁移的多种技巧实践
作者经历了多次基于HBase实现全量与增量数据的迁移测试,总结了在使用HBase进行数据迁移的多种实践,本文针对全量与增量数据迁移的场景不同,提供了1+2的技巧分享. HBase全量与增量数据迁移的方 ...
阿里云 RDS实例间的数据迁移
使用数据传输DTS可以实现两个RDS实例间的数据迁移.对于支持增量迁移的存储引擎,还可以使用DTS在源RDS实例不停服的情况下,将数据迁移到目标RDS实例.目前对于RDS不同存储引擎,只支持同构迁移( ...
flume-ng-sql-source实现oracle增量数据读取
一.下载编译flume-ng-sql-source 下载地址:https://github.com/keedio/flume-ng-sql-source.git ,安装说明文档编译和拷贝jar包嫌麻 ...
谈谈对Canal（增量数据订阅与消费）的理解
概述 canal是阿里巴巴旗下的一款开源项目,纯Java开发.基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了mysql(也支持mariaDB). 起源:早期,阿里巴巴B2B公司 ...
对 Canal (增量数据订阅与消费)的理解
概述 canal是阿里巴巴旗下的一款开源项目,纯Java开发.基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB). 起源:早期,阿里巴巴B2B公司 ...
elasticsearch 使用快照方式迁移数据
注册快照仓库 ES是通过快照的方式来实现数据备份,并且是以增量的方式,所以一般第一次做的话会花费较长的时间.为了做快照,那么就需要注册一个快照仓库,告诉ES我们的快照应该如何保存以及将快照保存到哪里. ...
干货 | Elasticsearch、Kibana数据导出实战
1.问题引出以下两个导出问题来自Elastic中文社区. 问题1.kibana怎么导出查询数据? 问题2:elasticsearch数据导出就像数据库数据导出一样,elasticsearch可以么 ...
Canal（增量数据订阅与消费）的理解及应用
canal是阿里巴巴旗下的一款开源项目,纯Java开发.基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB). 起源:早期,阿里巴巴B2B公司因为存 ...
XPatchLib 对象增量数据序列化及反序列化器 For .Net
在日常的软件开发和使用过程中,我们发现同一套系统的同一配置项在不同的客户环境中是存在各种各样的差异的.在差异较为分散时,如何较好的管理这些差异,使得维护过程能够更加安全和快速,一直在这样那样的困扰着开 ...
使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作(二)
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...

随机推荐

OceanBase初体验之查看OceanBase的执行计划
前置条件包含obd和obclient的中控机 OceanBase 测试集群独立的测试租户 BenchmarkSQL 工具(可选) 为了能够方面的查看复杂SQL的执行计划,我们先用TPCC模拟一些数 ...
OSCAR 2022 开源产业大会PolarDB-X、 PolarDB-PG获奖揭晓
简介: 作为全球数据库领导者,阿里云数据库坚定拥抱开源.此次亮相大会,旗下核心开源项目云原生分布式数据库PolarDB-X通过了信通院的 "可信开源项目评估,并以正式成员身份,加入中国信通院 ...
阿里云田涛涛：高效智能的云，CloudOps让运维更简单
简介:CloudOps:以应用为中心的自动化运维新趋势 12月21日,在阿里云弹性计算年度峰会上,阿里云弹性计算体验与控制系统负责人田涛涛发表了主题为<高效智能的云,CloudOps让运维更简 ...
基于 ASK + EB 构建容器事件驱动服务
简介:本篇文章以"在线文件解压场景"为例为大家展示经典 EDA 事件驱动与容器如何搭配使用. 作者:冬岛.肯梦导读 EDA 事件驱动架构( Event-Driven Archit ...
Hologres揭秘:深度解析高效率分布式查询引擎
简介: 从阿里集团诞生到云上商业化,随着业务的发展和技术的演进,Hologres也在持续不断优化核心技术竞争力,为了让大家更加了解Hologres,我们计划持续推出Hologers底层技术原理揭秘系列 ...
阿里云边缘容器云帮助AI推理应用快速落地
近日,阿里云技术专家徐若晨在全球分布式云大会上,分享了<边缘容器云助力AI推理高效落地>的主题演讲,分享了阿里云边缘容器云如何助力开发者实现更快速的AI推理应用的迭代和部署.此外,他还分享 ...
混合开发中，app内嵌h5页面时，安卓ios遇到的一些兼容问题及解决方法
1.input[type=checkbox]在ios端样式显示异常,黑色背景或边框,安卓正常解决: input[type=checkbox]:checked{ background-color: t ...
羽夏闲谈——TeeWorlds 中文问题
不久前削微寒园友发布了一篇博文误入 GitHub 游戏区,意外地收获颇丰 ,看到了一个游戏 TeeWorlds .有一说一挺好玩的,下面是那个博客的原图: 官方的下载连接:https:/ ...
golang写日志函数
package common import ( "bufio" "fmt" "os" "time" ) /*自定义日志文 ...
nim 6. 使用包
本来想按照制作包 - 发布包 - 使用包的顺序写.发现制作包一时还没搞懂,先看看怎么使用包吧. nim的包管理工具,是自带的 nimble. nimble的官方包列表是:Nim package di ...

使用 INFINI Console 实现 Elasticsearch 的增量数据迁移

使用 INFINI Console 实现 Elasticsearch 的增量数据迁移的更多相关文章

随机推荐

热门专题