HBase(五): HBase运维管理

HBase自带的很多工具可用于管理、分析、修复和调试，这些工具一部分的入口是hbase shell 客户端，另一部分是在hbase的Jar包中。

目录：

hbck
hfile
数据备份与恢复

1. Snapshots
2. Replication
3. Export
4. CopyTable
5. HTable API
6. Offline backup of HDFS data

hbck:

hbck 工具用于Hbase底层文件系统的检测与修复，包含Master、RegionServer内存中的状态及HDFS上数据的状态之间的一致性、黑洞问题、定位元数据不一致问题等
命令： hbase hbck -help 查看参数帮助选项
命令： hbase hbck -details 显示所有Region的完整报告
命令： hbase hbck -metaonly 只检测元数据表的状态，如下图：
快捷修复命令：
命令：hbase hbck -repair -ignorePreCheckPermission
命令：hbase hbck -repairHoles -ignorePreCheckPermission
应用示例，参见：HBase(三): Azure HDInsigt HBase表数据导入本地HBase

hfile:

查看HFile文件内容工具，命令及参数如下：
命令：hbase hfile -p -f /apps/hbase/data/data/default/PerTest/7685e6c39d1394d94e26cf5ddafb7f9f/d/3ef195ca65044eca93cfa147414b56c2
效果如下图：

数据备份与恢复：

常用的备份恢复方法如下图：参考文档： http://blog.cloudera.com/blog/2013/11/approaches-to-backup-and-disaster-recovery-in-hbase/

snapshots:

HBase快照功能丰富，有很多特征，创建时不需要关闭集群
快照在几秒内就可以完成，几乎对整个集群没有任何性能影响。并且，它只占用一个微不足道的空间
启用快速需设置 hbase-site.xml 文件的 hbase.snapshot.enabled 为True
命令： snapshot 'PerTest','snapPerTest' 基于表 PerTest 创建名为 snapPerTest 的快照
命令： list_snapshots 查看快照列表
创建完快照后，在hbase 目录下会生成 .hbase-snapshots 目录，存放快照信息，如右下角图
命令：delete_snapshot 'snapPerTest' 删除快照
恢复快照需要对表进行离线操作。一旦恢复快照，那任何在快照时刻之后做的增加/更新数据都会丢失，命令如下：
```
disable 'PerTest'

restore_snapshot  'snapPerTest'

enable 'PerTest'
```
命令：clone_snapshot 'snapPerTest','PerTest1' 根据快照clone新表（注：clone出来的新表不带数据副本）
ExportSnapshot tool 快照导出工具命令： hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshot 'snapPerTest' -copy-to /apps/hbase/data/zhu
注意：如果能访问到另一集群，则后面的地址可直接改为另一集群hdfs目录
导出的文件结构如下

Replication:

HBase replication是另外一个负载较轻的备份工具。被定义为列簇级别，可以工作在后台并且保证所有的编辑操作在集群复制链之间的同步
复制有三种模式：主->从(master->slave)，主<->主(master<->master)和循环（cyclic）。这种方法给你灵活的从任意数据中心获取数据并且确保它能获得在其他数据中心的所有副本。在一个数据中心发生灾难性故障的情况下，客户端应用程序可以利用DNS工具，重定向到另外一个备用位置
注：对于一个存在的表，你需要通过本文描述的其他方法，手工的拷贝源表到目的表。复制仅仅在你启动它之后才对新的写/编辑操作有效
复制是一个强大的，容错的过程。它提供了“最终一致性”，意味着在任何时刻，最近对一个表的编辑可能无法应用到该表的所有副本，但是最终能够确保一致。

Export：

Export是HBase一个内置的实用功能，它使数据很容易将hbase表内容输出成HDFS的SequenceFiles文件
使用map reduce任务，通过一系列HBase API来获取指定表格的每一行数据，并且将数据写入指定的HDFS目录中
示例说明：集群A：基于HDInsight创建的windows系统下的hbase 集群，集群B 基于Azure 虚拟机创建的liunx系统下 hbase集群，将A集群中表StocksInfo表导出至集群B的hdfs目录，遗憾的是两个集群无法通信，只能先导到本地，再手工上传
命令语法： hbase org.apache.hadoop.hbase.mapreduce.Export <tablename> <outputdir> 示例如下：
导出的文件结构如下：
命令：hdfs dfs -get /zhu c:/zhu 下载到A集群某节点c盘，手工上传至liunx，如下图
使用import命令导入数据至B集群HBase表，如下：（注：输入目录的文件必须是Export命令导出的文件格式）
命令语法：hbase org.apache.hadoop.hbase.mapreduce.Import <tablename> <inputdir> 如下图：
查看Hbase 表，如下图则OK

copyTable:

和导出功能类似，拷贝表也使用HBase API创建了一个mapreduce任务，以便从源表读取数据。不同的地方是拷贝表的输出是hbase中的另一个表，这个表可以在本地集群，也可以在远程集群
它使用独立的“puts”操作来逐行的写入数据到目的表。如果你的表非常大，拷贝表将会导致目标region server上的memstore被填满，会引起flush操作并最终导致合并操作的产生，会有垃圾收集操作等等
必须考虑到在HBase上运行mapreduce任务所带来的性能影响。对于大型的数据集，这种方法的效果不太理想
命令语法：hbase org.apache.hadoop.hbase.mapreduce.CopyTable --new.name=PerTest2 PerTest （copy名为PerTest的表到集群中的另外一个表PerTest2）如下图
注意：若用到--new.name =xxx,首先这个新表要之前就被定义

Offline backup of HDFS data:

参见：HBase(三): Azure HDInsigt HBase表数据导入本地HBase

HBase(五): HBase运维管理的更多相关文章

不吹不黑，赞一下应用运维管理的cassacdra
不吹不黑的为菊厂的应用运维管理AOM点个赞.Why? 某菊厂应用运维管理工具AOM每天处理着亿级条数据,这么多数据是怎么存储的呢? 说到数据存储就会想到关系型数据库,比如mysql,oracle,sy ...
企业该如何进行高效IT运维管理
企业该如何进行高效IT运维管理在企业内部也是一样,当大量的生产和经营数据集中在数据中心,一旦人们与数据中心因为IT故障而失去联系,停滞的也许不是个人应用受阻这样简单的后果.我们谁也不想看到自己企业的 ...
系统批量运维管理器Fabric详解
系统批量运维管理器Fabric详解 Fabrici 是基于python现实的SSH命令行工具,简化了SSH的应用程序部署及系统管理任务,它提供了系统基础的操作组件,可以实现本地或远程shell命令,包 ...
Git&Gitlab开发流程与运维管理
Git&Gitlab开发流程与运维管理作者刘畅时间 2020-10-31 实验系统版本centos7.5 主机名称 ip地址配置安装软件 controlnode 172.16.1.1 ...
谈谈我的windows服务器运维管理
我们开发的页游General War(http://gw.gamebox.com)上线运营也有半年多了,服务器的开发到运维基本都由我一手包办,在服务器上线之后我们又招了一个程序员接手后续功能的开发,而 ...
IT服务(运维)管理实施的几个要点--第一章 IT服务质量的标准
子曰"干的最好就是个60分,稍有纰漏就是不及格" 谈一个事情,最先要谈的就是统一标准,又或者这个标准已经约定俗成,广泛认可,所以就可以略过.对于IT服务质量来说,确实有一个统一的标 ...
IT服务(运维)管理实施的几个要点--序言
IT服务(运维)管理(不是IT运维技术)是IT行业当中相对比较"窄"的一个分支,通常只被金融.电信等大型数据中心的中高层管理人员所关注.但是根据笔者多年从事IT服务和服务管理的经验 ...
使用Ansible实现数据中心自动化运维管理
长久以来,IT 运维在企业内部一直是个耗人耗力的事情.随着虚拟化的大量应用.私有云.容器的不断普及,数据中心内部的压力愈发增加.传统的自动化工具,往往是面向于数据中心特定的一类对象,例如操作系统.虚拟 ...
15-MySQL DBA笔记-运维管理
第15章运维管理随着各种技术的快速发展,现今的DBA可以比以前的DBA维护多得多的数据库实例.DBA已经越来越像一个资源的管理者,而不是简单的操作步骤执行人.本章将为读者介绍规模化运维之道.首先, ...
rocketmq运维管理
# 运维管理--- ### 1 集群搭建 #### 1.1 单Master模式这种方式风险较大,一旦Broker重启或者宕机时,会导致整个服务不可用.不建议线上环境使用,可以用于本地测试. #### ...

随机推荐

WCF之多个协定
多个协定”示例演示如何在一个服务上实现多个协定,以及如何配置终结点以便与实现的每个协定进行通信 1.服务端代码如下(服务实现了两个协定,增加了黄色所示代码): class Program { stat ...
简单的IOS6和IOS7通过图片名适配
在美工提供图片图片的前提下,只需要下面给UIImage做一个分类,就可以简单的实现在6和7上的图片名字适配. 比如美工在6上面提供的图片叫common_button_big_red_highlight ...
CSS 实现：父元素包含子元素，子元素垂直居中布局
☊[实现要求]:父元素包含子元素,子元素垂直居中布局 <div class="demo5"> <div class="child">A& ...
UDP通讯程序设计---6
一.函数化 1.1服务器使用的函数创建socket----->socket 绑定地址-------->bind 接受数据-------->recvfrom 发送数据-------- ...
python--迭代--7
原创博文,转载请标明出处--周学伟http://www.cnblogs.com/zxouxuewei/ 一.什么是迭代在Python中,如果给定一个list或tuple,我们可以通过for循环来遍历 ...
黑马程序员——JAVA基础之set集合
------- android培训.java培训.期待与您交流! ---------- Set: 元素是无序(存入和取出的顺序不一定一致),元素不可以重复. Set接口中常用的类: ...
windows API
Process and Thread Functions https://msdn.microsoft.com/en-us/library/windows/desktop/ms684847(v=vs. ...
Qt QTreeWidget 树形结构实现(转)
Qt中实现树形结构可以使用QTreeWidget类,也可以使用QTreeView类,QTreeWidget继承自QTreeView类.树形效果如下图所示: 这是怎么实现的呢?还有点击节点时会有相应的事 ...
Nginx-/etc/sysctl.conf 参数解释
来自<深入理解Nginx模块开发与架构解析> P9 #表示进程(例如一个worker进程)可能同时打开的最大句柄数,直接限制最大并发连接数 fs. #1代表允许将状态为TIME-WAIT状 ...
Linux-内存管理机制、内存监控、buffer/cache异同
在Linux中经常发现空闲内存很少,似乎所有的内存都被系统占用了,表面感觉是内存不够用了,其实不然.这是Linux内存管理的一个优秀特性,主要特点是,无论物理内存有多大,Linux 都将其充份利用,将 ...

HBase(五): HBase运维管理

HBase(五): HBase运维管理的更多相关文章

随机推荐

热门专题