Hadoop元数据备份与恢复方案

Zeus~ 2024-07-23 23:59:05 原文

Hadoop元数据备份与恢复方案

标签（空格分隔）： Hadoop

Namenode

备份策略：

周期性备份namenode、standby namenode的dfs.namenode.name.dir
因为主从切换可能导致edits log分散在两台机器上，需要两台机器共同提供完整的edits log
恢复步骤：

1,删除journalnode数据文件，启动服务（所有jn均执行）
2,登陆namenode
3,下载最新的备份文件
4,解压，移至dfs.namenode.name.dir
5,执行hdfs namenode –initializeSharedEdits（hdfs namenode -initializeSharedEdits will initialize the shared edits directory with the edits data from the local NameNode edits directories）
6,启动zkfc
7,启动namenode
8,登陆standby namenode
9,执行hdfs namenode -bootstrapStandby（The bootstrapStandby command will download the most recent fsimage from the active NameNode into the $dfs.name.dir directory of the standby NameNode.）
10,启动zkfc
11,启动namenode

适用场景：

namenode、standby namenode全部故障
如果只是一台namenode故障，可以清空name文件夹，执行hdfs namenode -bootstrapStandby

Journalnode

备份策略：

无
恢复方法：
从正常的jn节点拷贝数据，启动，即可。
无需停止正常节点再拷贝，直接拷贝即可。这样拷贝会有部分缺失数据，故障节点启动后，不会补齐这些缺失数据，但不影响新数据的写入。对于缺失的edits，只要有一台机器上有，namenode就可以启动。

适用场景：

单个节点故障

Zookeeper

备份策略：

周期性备份
< dataDir >/version-2/acceptedEpoch
< dataDir >/version-2/currentEpoch
< dataDir >/version-2/snapshot.
< dataLogDir >/version-2/log.
其中snapshot、log备份最近的几份就行
恢复步骤：
1,登陆一台zookeeper服务器
2,下载最新的备份文件
3,解压，将data、datalog移至< dataDir>，并创建data/myid文件（与配置文件一致）
启动服务
4,其余节点配置data/myid文件，启动即可

适用场景：

部分或全部数据丢失
如果只是单个节点故障，清空故障节点的data、datalog文件夹，启动后会自动从正常节点复制数据，无需人工恢复

Hadoop元数据备份与恢复方案的更多相关文章

hive 压缩全解读(hive表存储格式以及外部表直接加载压缩格式数据)；HADOOP存储数据压缩方案对比（LZO,gz，ORC）
数据做压缩和解压缩会增加CPU的开销,但可以最大程度的减少文件所需的磁盘空间和网络I/O的开销,所以最好对那些I/O密集型的作业使用数据压缩,cpu密集型,使用压缩反而会降低性能. 而hive中间结果 ...
Hbase记录-备份与恢复方案推荐
热备份和冷备份参考方案,如在生产环境,请结合业务情况考虑
Open DJ备份与恢复方案
最近接手了一个Cognos项目,第三方用户认证采用的是和Open DJ集成.本人之前很多采用的是cjap ,当然这和cjap相比起来简单的多了,最起码你不必具有Java的基础知识就可以完全驾驭了! 一 ...
Redis企业级数据备份与恢复方案
一.持久化配置 RBD和AOF建议同时打开(Redis4.0之后支持) RDB做冷备,AOF做数据恢复(数据更可靠) RDB采取默认配置即可,AOF推荐采取everysec每秒策略 AOF和RDB还不 ...
hadoop内存配置方案
Configuration File Configuration Setting Value Calculation 8G VM (4G For MR) yarn-site.xml ...
Cognos备份与恢复方案
场景:早上来上班,突然发现COGNOS服务器挂掉了,比如硬盘彻底坏掉了,不能恢复了,那该怎么办?前提是肯定要有备份啊. 备份内容: A:FM模型备份OKB:Cognos内容库备份OK 恢复过程: 1: ...
Hadoop生态圈-构建企业级平台安全方案
Hadoop生态圈-构建企业级平台安全方案作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 能看到这篇文章的小伙伴,估计你对大数据集群的部署对于你来说应该是手到擒来了吧.我之前分享过 ...
使用Atlas进行元数据管理之Atlas简介
背景:笔者和团队的小伙伴近期在进行数据治理/元数据管理方向的探索, 在接下来的系列文章中, 会陆续与读者们进行分享在此过程中踩过的坑和收获. 元数据管理系列文章: [0] - 使用Atlas进行元数据 ...
大数据框架：Spark vs Hadoop vs Storm
大数据时代,TB级甚至PB级数据已经超过单机尺度的数据处理,分布式处理系统应运而生. 知识预热「专治不明觉厉」之“大数据”: 大数据生态圈及其技术栈: 关于大数据的四大特征(4V) 海量的数据规模( ...

随机推荐

MyBatis 源码篇-DataSource
本章介绍 MyBatis 提供的数据源模块,为后面与 Spring 集成做铺垫,从以下三点出发: 描述 MyBatis 数据源模块的类图结构: MyBatis 是如何集成第三方数据源组件的: Pool ...
hdu 1869 枚举+Dijstra
一点小变形就是了..] #include<iostream> #include<cstdio> #define maxn 201 #define inf 999999 usin ...
IOS 点击按钮拨号
- (IBAction)OnTouch_bHotLine:(id)sender { [[UIApplication sharedApplication] openURL:[NSURL URLWithS ...
maven 私服 nexus 安装
1.去官方下载他的免费版,人民称为oss版(这一步自行百度去官网解决),官网:https://www.sonatype.com/ 2.下载好后,解压是两个文件夹: 3.配置环境变量: 4.安装生成w ...
12.JDBC
/*使用JDBC处理大数据*/ 在实际开发中,程序需要把大文本或二进制数据保存到数据库中大数据LOB(Large Objects),LOB又分为clob和blob clob用来存储大文本 blob用 ...
Spring Cloud（六）服务网关 zuul 快速入门
服务网关是微服务架构中一个不可或缺的部分.通过服务网关统一向外系统提供REST API的过程中,除了具备服务路由.均衡负载功能之外,它还具备了权限控制等功能.Spring Cloud Netflix中 ...
第六章、forms组件
目录第六章.forms组件一.注册功能手写二.forms组件完整写法基本使用三.forms组件前端渲染标签组件三.forms组件其他知识点在python console测试校验数据 f ...
elasticsearch 数据备份
ES数据备份找了一些方法,发现elasticdump 这个工具不错 elasticdump --input=http://192.168.0.92:9200/hs2840 --output ./hs2 ...
工作中常用的Git操作
粘贴自:微信公众号:程序员共成长分支操作: git branch 创建分支 git branch -b 创建并切换到新建的分支上 git checkout 切换分支 git branch 查看分支列 ...
HTML5 离线缓存manifest
1.简介W3C官方对manifest的介绍是HTML5 引入了应用程序缓存,这意味着 web 应用可进行缓存,并可在没有因特网连接时进行访问. 应用程序缓存为应用带来三个优势: 离线浏览 - 用户可在 ...