Elastic数据迁移方法及注意事项

需求

ES集群Cluster_A里的数据（某个索引或某几个索引），需要迁移到另外一个ES集群Cluster_B中。

环境

Linux：Centos7 / Centos6.5/ Centos6.4
Elastic：5.2.0

总结的方法

查询并导出数据
拷贝ES物理目录/文件
ES快照数据备份和恢复

迁移方法

分别进行以上方法的详细介绍：

查询并导出数据

理论

通过ES提供的查询API，写各种程序，把数据导出csv，或者把数据查询出来，直接入库到新的ES集群中。

实践

#coding=utf-8

import os

import sys

import pyes

index_list = [

    ["index_A", "type_A"],

    ["index_B", "type_B"],

    ["index_C", "type_C"],

]

ES_URL = "http://192.168.1.1:9200/"

NEW_ES_URL = "http://192.168.2.1:8200/"

def main():

    for _index, _type in index_list:

        conn = pyes.es.ES(ES_URL)

        search = pyes.query.MatchAllQuery().search(bulk_read=10000)

        hits = conn.search(search, _index, _type, scan=True, scroll="30m", model=lambda _,hit: hit)

        conn2 = pyes.es.ES(NEW_ES_URL)

        count = 0

        for hit in hits:

            conn2.index(hit['_source'], _index, _type, hit['_id'], bulk=True)

            count += 1

            if count % 10000 == 0:

                print count

                conn2.flush()

        conn2.flush()

        conn2 = None

        conn = None

if __name__ == '__main__':

    main()

注意事项

需要安装python的pyes模块，注意pyes的版本，此处的版本为：pyes.0.20.1
用了查询ES的scroll方式，也有一种直接通过ES的DSL查询语句用分页from和size查询，但是ES的分页查询到了千万级别之后，from就会慢的出奇，甚至报错，不信的同学去尝试吧，等着功亏一篑….
客户现场的数据级别是物理存储大概在5T(一个副本)，条数大概1百亿。现场使用该方法亲测之后，未解决ES迁移的问题。pyes在约到后面查询越慢，最后ES报错…..

总结

百万、千万级别条数的数据，可以尝试该方法。

拷贝ES物理目录/文件

理论

ES的文件存在磁盘中，把物理文件一模一样拷贝一份到新的集群环境中，达到数据迁移的效果。

实践

1. 找到ES的存储目录，一般可以到elasticsearch.yml中找到path.data的配置

2. 集群下一般会有多个节点，所以ES的存储目录也就有多个

3. 一般ES的存储目录下，会存储一个集群名字一样的文件夹，需要拷贝的就是这个文件夹.

4. 环境如下：

旧集群：

集群名字：Cluster_A

分片数：6

机器A：一个节点 192.168.1.1

node0  数据存储目录：/opt/data1,/opt/data2

机器B：三个节点 192.168.1.2

node1  数据存储目录：/opt/data1,/opt/data2

node2  数据存储目录：/opt/data3,/opt/data4

node3  数据存储目录：/opt/data5,/opt/data6

新的集群：

集群名字：Cluster_A

分片数：6

机器A：一个节点 192.168.2.1

node0  数据存储目录：/opt/data1,/opt/data2

机器B：三个节点 192.168.2.2

node1  数据存储目录：/opt/data1,/opt/data2

node2  数据存储目录：/opt/data3,/opt/data4

node3  数据存储目录：/opt/data5,/opt/data6

5. 迁移代码如下：

新集群机器A：192.168.2.1如下操作

scp –r root@192.168.1.1:/opt/data1/Cluster_A /opt/data1/

scp –r root@192.168.1.1:/opt/data2/Cluster_A /opt/data2/

新集群机器B：192.168.2.2如下操作

scp –r root@192.168.1.2:/opt/data1/Cluster_A /opt/data1/

scp –r root@192.168.1.2:/opt/data2/Cluster_A /opt/data2/

scp –r root@192.168.1.2:/opt/data3/Cluster_A /opt/data3/

scp –r root@192.168.1.2:/opt/data4/Cluster_A /opt/data4/

scp –r root@192.168.1.2:/opt/data5/Cluster_A /opt/data5/

scp –r root@192.168.1.2:/opt/data6/Cluster_A /opt/data6/

ES快照数据备份和恢复

理论

使用ES官网提供的快照备份方法，将旧集群ES的索引进行备份，拷贝备份出来的所有文件，在新的集群中进行恢复。

官网写的非常简单：先创建仓库(repository)，再往仓库里添加一个快照(snapshot)，查看备份状态，That’s all。但是实践需要麻烦很多了。

实践

1. 旧的集群备份出来的东西，需要拷贝到新集群机器上。解决两个问题：一是旧集群没有足够的空间存储这些东西；二是反正备份出来都需要拷贝到新的集群中。此处想到一个方法，将新集群机器的目录远程Mount到旧集群机器上。

2. 挂载目录，2.1）和2.2）可以任选一种方式

3. 使用sshfs进行挂载：

// 在每台机器上安装sshfs

yum install fuse sshfs

// 每台机器上创建Mount共享目录

mkdir /opt/backup_es

// 旧集群的每台机器上挂载共享目录(分别挂载了新机器的/opt/data07目录到/opt/backup_es)

sshfs root@192.168.2.1:/opt/data07 /opt/backup_es -o allow_other

sshfs root@192.168.2.2:/opt/data07 /opt/backup_es -o allow_other

// 测试运行ES的用户是否有对共享目录的写权限

sudo -u elastic touch /opt/backup_es

// 在旧机器上将共享目录的权限付给ES的运行用户

chown elastic:elastic -R /opt/backup_es

2. 使用Mount nfs进行挂载：

// 在新集群的机器上(192.168.2.1, 192.168.2.2)添加共享的文件夹和客户端可以访问的IP地址

vi /etc/exports

/opt/data07 192.168.1.1(rw,no_root_squash)

/opt/data07 192.168.1.2(rw,no_root_squash)

// 查看共享文件夹和

exportfs -rv

// 重启启动新集群机器的NFS服务

services nfs restart

// 旧集群的每台机器上创建共享目录

mkdir /opt/backup_es

// 旧集群机器上进行Mount挂载

mount -t nfs 192.168.2.1:/opt/data07 /opt/backup_es

mount -t nfs 192.168.2.2:/opt/data07 /opt/backup_es

// 在旧机器上将共享目录的权限付给ES的运行用户

chown elastic:elastic -R /opt/backup_es

3. 创建ES仓库

// 创建ES仓库my_backup

http://192.168.1.1:9200/_plugin/head/的复合查询，通过PUT进行发送请求：

PUT _snapshot/my_backup

{

    "type": "fs",

    "settings": {

        "location": "/opt/backup_es",

        "compress": true

    }

}

// 查看仓库的状态

http://192.168.1.1:9200/_snapshot

4. 创建快照备份

// 针对具体的index创建快照备份(可以指定1个快照1个索引，或1个快照多个索引)

// 后面会依据快照的名称来进行恢复

http://192.168.1.1:9200/

PUT _snapshot/my_backup/snapshot_name_A

{

    "indices": "index_A, index_B"

}

成功之后，备份已经异步开始了。

5. 查看备份的状态

// 查看备份状态

http://192.168.1.1:9200/_snapshot/my_backup/snapshot_name_A/_status

细心的同学会看到ES会同时进行几个分片的备份，而且显示备份的数据情况。

有心的同学会看到，旧集群上共享的两个目录/opt/backup_es会均分备份出来的数据。这一点ES还是比较强大的，赞一个。应该还可以指定多个目录（作者没有试过，但是应该也是OK的，这样就可以挂载多个目录，解决磁盘空间不足的问题了）

6. 最后，就是等，直至所有的的备份都完成。

备份完成后，查看旧集群每台机器的/opt/backup_es目录，查看备份出的东东。

取消挂载

7. 在新集群中恢复

// 在新集群每台机器上将共享目录的权限付给ES的运行用户

chown elastic:elastic -R /opt/data07

// 停止ES，设置elasticsearch.yml的参数

    path.repo: /opt/data07

// 启动ES，在新集群创建仓库

http://192.168.2.1:9200/_plugin/head/的复合查询，通过PUT进行发送请求：

PUT _snapshot/my_backup

{

    "type": "fs",

    "settings": {

        "location": "/opt/data07",

        "compress": true

    }

}

8. 在新集群中恢复数据

// 使用RESTful API进行备份的恢复

http://192.168.1.1:9200/

POST

_snapshot/my_backup/snapshot_name_A/_restore

// 查看恢复的状态

http://192.168.1.1:9200/

GET

_snapshot/my_backup/snapshot_name_A/_status

9. 等，直至恢复完成。

注意事项

索引很大，需要有足够的空间存储备份出来的数据，挂载磁盘和设置path.repo来解决该问题。
在简历仓库的时候，会报错，找不到快照目录/opt/backup_es
需要在elasticsearch.yml中设置path.repo: /opt/backup_es
挂载的磁盘需要赋权限，让ES的用户能读写。Sshfs的时候加上 -oallow_other；Mount的时候需要对目录进行赋权限chown
Mount nfs的时候需要注意配置：vi /etc/exports

/opt/data07192.168.1.1(rw,no_root_squash)

/opt/data07192.168.1.2(rw,no_root_squash)

新集群中如果有索引和备份出来的索引有冲突（索引已存在），恢复不成功。
解决：可以将旧的索引重命名，然后导入新集群中。导入成功后，将两个索引建立一个别名。
恢复期间，整个集群会变成红色(集群不可用)，最好半夜的时候进行。

Elastic数据迁移方法及注意事项的更多相关文章

一种HBase表数据迁移方法的优化
1.背景调研: 目前存在的hbase数据迁移主要分如下几类: 根据上图,可以看出: 其实主要分为两种方式:(1)hadoop层:因为hbase底层是基于hdfs存储的,所以可以通过把hdfs上的数据拷 ...
centos下mysql数据迁移方法
第一种: 原始数据库不需要重新安装: 默认mysql会安装在/var/lib/mysql这里,若将数据迁移到/data/mysql目录下,步骤如下: 1.停止mysql服务 2.#cp /var/li ...
elasticsearch5.0集群大数据量迁移方法及注意事项
当es集群的数据量较小的情况下elasticdump这个工具比较方便,但是当数据量达到一定级别比如上百G的时候,elasticdump速度就很慢了,此时我们可以使用快照的方法进行备份 elasticd ...
oracle常用的数据迁移方法
源地址:http://wenku.baidu.com/link?url=lI6UYpvDs_y8ku6DytEZLl4GSJjQ0GAGPvv8txrbRoQKgqzTCMAfBZI5mn9t-KQk ...
Oracle数据泵数据迁移
1 表空间查询 1.1 检查用户与表空间对应情况 select username,default_tablespace from dba_users; 1.2 查看临时表空间 select ta ...
解决 MVC4 Code First 数据迁移数据库发生更改导致调试失败解决方法（二）
文章转载自:http://www.cnblogs.com/amoniyibeizi/p/4486617.html 前几天学MVC过程中,遇到更改Model类以后,运行程序就会出现数据已更改的问题导致调 ...
使用neo4j图数据库的import工具导入数据 -方法和注意事项
背景最近我在尝试存储知识图谱的过程中,接触到了Neo4j图数据库,这里我摘取了一段Neo4j的简介: Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中.它是一个嵌 ...
Hbase实用技巧：全量+增量数据的迁移方法
摘要:本文介绍了一种Hbase迁移的方法,可以在一些特定场景下运用. 背景在Hbase使用过程中,使用的Hbase集群经常会因为某些原因需要数据迁移.大多数情况下,可以跟用户协商用离线的方式进行迁移 ...
Django添加模型无法数据迁移解决方法
用Django开发一款博客,按照教程一步步写下来,发现当我创建一个模型blogpost的时候,使用数据迁移 python manage.py migrate 提示 Operations to perf ...

随机推荐

R语言编程艺术#01#数据类型向量（vector）
R语言最基本的数据类型-向量(vector) 1.插入向量元素,同一向量中的所有的元素必须是相同的模式(数据类型),如整型.数值型(浮点数).字符型(字符串).逻辑型.复数型等.查看变量的类型可以用t ...
Linux安装R记要
R在Linux上的安装有一些坑(Windows上安装会方便许多),在这里记录,希望可以减少读者不必要的麻烦.我的服务器是SUSE Linux 64位,无法接入互联网(安全原因,你懂的). 到R官网ht ...
visio2013激活软件
环境是 win7, 64 bit 装了 visio 2013 , 可以却不能用它来画图,在网上找了一些破解工具,大都不能解决问题.网上不靠谱的广告型文章太多了,比较头痛. 所幸,终于找到正确的破解工具 ...
2. Attention Is All You Need（Transformer）算法原理解析
1. 语言模型 2. Attention Is All You Need(Transformer)算法原理解析 3. ELMo算法原理解析 4. OpenAI GPT算法原理解析 5. BERT算法原 ...
启动TDS LDAP 服务器遇到的问题总结
在启动TDS LDAP服务器时遇到一些问题,由于习惯使用Oracle数据库,而对DB2数据库比较陌生,在遇到这些问题时也是摸不到头脑,好在现在解决了,并把所遇到的问题罗列如下: 使用命令启动TDS L ...
【emWin】例程二十一：窗口对象——Edit
简介: 编辑框通常用作输入文本的主要用户界面,也可使用编辑字段以二进制.十进制或十六进制模式输入值. 触摸校准(上电可选择是否进入校准界面) 实验指导书及代码包下载: 链接:http://pan.ba ...
解决Xcode删除文件后missing file警告
在用xcode开发的时候,删除不用的文件后, 编译的时候会有missing file的警告,原因是由于SVN或git造成的,有几种方法可以解决. 1.命令行进入missing file目录,然后运行 ...
关于SpringBoot如何返回视图
别人已经写过了,我就不重复造轮子了.我赞成他的方案:Spring Boot使用方法小札(1):Web应用返回jsp页面如果配置完之后,访问相应的Controller 还是得不到对应的页面,考虑用以下 ...
[Algorithm] Asymptotic Growth Rate
f(n) 的形式 vs 判定形势但,此题型过于简单,一般不出现在考题中. Extended: link Let's set n = 2^m, so m = log(n) T(n) = 2*T(n^( ...
c __cplusplus详解
Code:#ifdef __cplusplusextern "C" { #endif ... #ifdef __cplusplus} #endif 解释:1.c++中定义了__cp ...

Elastic数据迁移方法及注意事项

需求

环境

总结的方法

迁移方法

查询并导出数据

理论

实践

注意事项

总结

拷贝ES物理目录/文件

理论

实践

ES快照数据备份和恢复

理论

实践

注意事项

Elastic数据迁移方法及注意事项的更多相关文章

随机推荐

热门专题