[how to]HBase Snapshots原理与使用
1.简介
Snapshots即快照的意思,作用于表上。在对于表做快照的时候不会造成文件的拷贝,如不会对HFile文件进行拷贝而是以链接的方式链接到元表的HFile上。可以说它是一种元数据的集合,可以快速的恢复到表至快照指定的状态从而迅速的数据修复(会丢失快照之后的数据)如用户误删除表等操作中恢复。也可以将数据拷贝到不同的集群进行数据的备份。

2.准备
在测试环境上准备源表:

hbase(main)::> scan 'mytable'
ROW COLUMN+CELL
row1 column=f1:a, timestamp=, value=
row2 column=f1:a, timestamp=, value=
row3 column=f1:a, timestamp=, value=
row4 column=f1:a, timestamp=, value=
row5 column=f1:a, timestamp=, value=
row6 column=f1:a, timestamp=, value=
row(s) in 0.1100 seconds
3.操作:
a.创建快照:
hbase(main)::> snapshot 'mytable','mysnapshot'
row(s) in 0.3840 seconds
创建完毕后再web页面我们可以看到快照的信息,显示了多少hfile包含于这个快照,这些hfile是否被归档(当发生分裂,compaction或者drop表操作的时候有可能会在源表hdfs目录中删除这
些引用的hfile,但是为了维护快照的信息这些被删除的hfile会被归档到指定目录,这里看到100%shared with the source table 代表这些hfile还没有没删除。)

其会在如下hdfs路径下创建快照的引用信息:
[hadoop@xufeng- ~]$ hadoop fs -ls /hbase/.hbase-snapshot/mysnapshot
Found items
-rw-r--r-- hadoop supergroup -- : /hbase/.hbase-snapshot/mysnapshot/.snapshotinfo// 这里记录了当前快照的元信息
-rw-r--r-- hadoop supergroup -- : /hbase/.hbase-snapshot/mysnapshot/data.manifest// 这里记录了源表的元信息,region分裂信息,以及引用目标hfile信息
注意:现在大部分网络上的分享信息都是说创建一个空文件来链接到源表的hfile文件上,在https://issues.apache.org/jira/browse/HBASE-7987中优化这样的处理,避免了大量的空的链接文件对于hdfs的冲击。
这里我们展示一下具体的data.manifest文件信息
// :: WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable ? defaultmytable
IS_METAfalse?
f1 ATA_BLOCK_ENCODINGNONE BLOOMFILTERROW
REPLICATION_SCOPE0 COMPRESSIONNONE
VERSIONS1
TTL
2147483647 MIN_VERSIONS0
EEP_DELETED_CELLSFALSE
BLOCKSIZE65536
IN_MEMORYfalse BLOCKCACHEtrueX?????*// 这一部分保存了源表的元信息
defaultmytablerow3"(08+
f1%
420c04ce57eb4634bf2efefb56aa0b15X?????*
defaultmytable"row3(08+
f1%
29a0b0870ce740dba0be8ba24c3fa34e// 这一部分保存了region的切分信息和当前快照所以来的源表的hfile信息【通常建立快照的时候都需要flush表】
b.restore 快照:
如下我们将mytable这个源表删除:
hbase(main)::> put 'mytable','row7','f1:a',7 // 插入一条数据以此来检测当restore后数据是否恢复的原来的状态
row(s) in 0.0940 seconds hbase(main)::> flush 'mytable'
row(s) in 0.5350 seconds hbase(main)::> disable 'mytable'
row(s) in 2.4120 seconds hbase(main)::> drop 'mytable'
row(s) in 1.2890 seconds
此时源表被删除,源表的hdfs文件夹也被删除了:
[hadoop@xufeng- ~]$ hadoop fs -ls /hbase/data/default/mytable
// :: WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
ls: `/hbase/data/default/mytable': No such file or directory
这个时候快照manifest中引用的源表hfile会被归档到,只要原来的文件有被删除的情况,那么快照所引用的hfile文件都会归档到archive的对应表目录中。
[hadoop@xufeng- ~]$ hadoop fs -ls /hbase/archive/data/default/mytable/49b61de11f43344b8bebfed0db0605b4/f1
// :: WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found items
-rw-r--r-- hadoop supergroup -- : /hbase/archive/data/default/mytable/49b61de11f43344b8bebfed0db0605b4/f1/420c04ce57eb4634bf2efefb56aa0b15
[hadoop@xufeng- ~]$ hadoop fs -ls /hbase/archive/data/default/mytable/d2d35f61fae1de22492b0c6d9d305cfe/f1
// :: WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found items
-rw-r--r-- hadoop supergroup -- : /hbase/archive/data/default/mytable/d2d35f61fae1de22492b0c6d9d305cfe/f1/29a0b0870ce740dba0be8ba24c3fa34e
[hadoop@xufeng- ~]$
执行restore,我们可以看到表数据被恢复,且数据
hbase(main)::> drop 'mytable'
row(s) in 1.2890 seconds hbase(main)::> restore_snapshot 'mysnapshot'
row(s) in 0.8470 seconds hbase(main)::> list
TABLE
mytable
row(s) in 0.0190 seconds => ["mytable"]
hbase(main)::> scan 'mytable'
ROW COLUMN+CELL
row1 column=f1:a, timestamp=, value=
row2 column=f1:a, timestamp=, value=
row3 column=f1:a, timestamp=, value=
row4 column=f1:a, timestamp=, value=
row5 column=f1:a, timestamp=, value=
row6 column=f1:a, timestamp=, value=
row(s) in 0.0430 seconds hbase(main)::>
我们接着在被恢复表的hdfs目录结构,可以看到这两个hfile的size为0,说明他是对achive中归档hfile的引用。
[hadoop@xufeng- ~]$ hadoop fs -ls /hbase/data/default/mytable/49b61de11f43344b8bebfed0db0605b4/f1
Found items
-rw-r--r-- hadoop supergroup -- : /hbase/data/default/mytable/49b61de11f43344b8bebfed0db0605b4/f1/mytable=49b61de11f43344b8bebfed0db0605b4-420c04ce57eb4634bf2efefb56aa0b15
[hadoop@xufeng- ~]$ hadoop fs -ls /hbase/data/default/mytable/d2d35f61fae1de22492b0c6d9d305cfe/f1
Found items
-rw-r--r-- hadoop supergroup -- : /hbase/data/default/mytable/d2d35f61fae1de22492b0c6d9d305cfe/f1/mytable=d2d35f61fae1de22492b0c6d9d305cfe-29a0b0870ce740dba0be8ba24c3fa34e
当我们再次插入数据并flush的时,可以看到新被flush的hfile是实际的hfile,大小不为0,在achive中归档的hfile文件直到所对应的快照被删除且当没有没有表引用它才会被定期删除。
hbase(main)::> put 'mytable','row7','f1:a',
row(s) in 0.0180 seconds hbase(main)::>
Display all possibilities? (y or n)
hbase(main)::> flush 'mytable'
row(s) in 0.3520 seconds
-rw-r--r-- hadoop supergroup -- : /hbase/data/default/mytable/49b61de11f43344b8bebfed0db0605b4/f1/7b6d4c0556c84224a8f8f1da10b5fee4
-rw-r--r-- hadoop supergroup -- : /hbase/data/default/mytable/49b61de11f43344b8bebfed0db0605b4/f1/mytable=49b61de11f43344b8bebfed0db0605b4-420c04ce57eb4634bf2efefb56aa0b15
c.从快照中克隆一张表
hbase(main)::> clone_snapshot 'mysnapshot','myclonetable'
row(s) in 2.5610 seconds hbase(main)::> scan 'myclonetable'
ROW COLUMN+CELL
row1 column=f1:a, timestamp=, value=
row2 column=f1:a, timestamp=, value=
row3 column=f1:a, timestamp=, value=
row4 column=f1:a, timestamp=, value=
row5 column=f1:a, timestamp=, value=
row6 column=f1:a, timestamp=, value=
row(s) in 0.2060 seconds
再来看一下其表hdfs目录:可以看到其hfile也是对于快照归档文件的引用,大小为0,同时其具有不同的表名,不同的region名称。
[hadoop@xufeng- ~]$ hadoop fs -ls /hbase/data/default/myclonetable/660358521754384ce0d5e2e1a00b7f3e/f1
Found items
-rw-r--r-- hadoop supergroup -- : /hbase/data/default/myclonetable/660358521754384ce0d5e2e1a00b7f3e/f1/mytable=d2d35f61fae1de22492b0c6d9d305cfe-29a0b0870ce740dba0be8ba24c3fa34e
[hadoop@xufeng- ~]$ hadoop fs -ls /hbase/data/default/myclonetable/93f80e96f83e193caf35752a84cf6492/f1
Found items
-rw-r--r-- hadoop supergroup -- : /hbase/data/default/myclonetable/93f80e96f83e193caf35752a84cf6492/f1/mytable=49b61de11f43344b8bebfed0db0605b4-420c04ce57eb4634bf2efefb56aa0b15
注意:clone与restore快照的区别通过上述实践可知:restore恢复快照对应的源表的状态,其表名,region都一致。而clone是执行表名重新创建了新表,除了表名连region名称也不同,完全是一张新表。
他们共同点是都引用了archive中快照归档的hflie文件。
d.删除快照
hbase(main)::> delete_snapshot 'mysnapshot'
row(s) in 0.1580 seconds
删除只有快照目录被删除但是archive目录由于被其他表引用着并不会被删除:
[hadoop@xufeng- ~]$ hadoop fs -ls /hbase/.hbase-snapshot/mysnapshot
ls: `/hbase/.hbase-snapshot/mysnapshot': No such file or directory
[hadoop@xufeng- ~]$ hadoop fs -ls /hbase/archive/data/default/mytable
Found items
drwxr-xr-x - hadoop supergroup -- : /hbase/archive/data/default/mytable/49b61de11f43344b8bebfed0db0605b4
drwxr-xr-x - hadoop supergroup -- : /hbase/archive/data/default/mytable/d2d35f61fae1de22492b0c6d9d305cfe
[hadoop@xufeng- ~]$
4.原理简述
综上对于快照的实践我们可以大概总结一下快照的一般原理。
a.创建快照:
如前所述,在快照的data.manifest文件中写明了快照指向那些hflie

b. 源表hfile文件变动(发生split、compact等),元hfile文件会被拷贝到archive归档目录中去

c.restore
当对某个表进行restore时,此表在快照时间点之后创建的HFile会被删除并被归档(有可能HF5之上也有快照引用),然后会通过一个空文件link到之前被归档的HF4文件上从而恢复了表数据。

d.clone
克隆的表是一个独立的新表有自己的hdfs路径,初始化的时候内部也都是空文件指向了源表的hfile或者被归档的hfile。

5.应用场景及缺陷:
略。
[how to]HBase Snapshots原理与使用的更多相关文章
- (转)HBase 的原理和设计
转自:HBase的原理和设计 HBase架构:
- Hadoop 综合揭秘——HBase的原理与应用
前言 现今互联网科技发展日新月异,大数据.云计算.人工智能等技术已经成为前瞻性产品,海量数据和超高并发让传统的 Web2.0 网站有点力不从心,暴露了很多难以克服的问题.为此,Google.Amazo ...
- Hbase 学习(十) HBase Snapshots
HBase Snapshots允许你对一个表进行快照(即可用副本),它不会对Region Servers产生很大的影响,它进行复制和 恢复操作的时候不包括数据拷贝.导出快照到另外的集群也不会对Regi ...
- hadoop学习第七天-HBase的原理、安装、shell命令
一. hbase的原理知识 1. hbase介绍 hbase是hadoop的一个重要成员,主要用于存储结构化数据,构建在hdfs之上的分布式存储系统,它主要通过横向扩展,通用不断增加廉价服务器增加计算 ...
- 【HBase】二、HBase实现原理及系统架构
整个Hadoop生态中大量使用了master-slave的主从式架构,如同HDFS中的namenode和datanode,MapReduce中的JobTracker和TaskTracker,YAR ...
- Hbase概念原理扫盲
一.Hbase简介 1.什么是Hbase Hbase的原型是google的BigTable论文,收到了该论文思想的启发,目前作为hadoop的子项目来开发维护,用于支持结构化的数据存储. Hbase是 ...
- HBase 底层原理详解(深度好文,建议收藏)
HBase简介 HBase 是一个分布式的.面向列的开源数据库.建立在 HDFS 之上.Hbase的名字的来源是 Hadoop database,即 Hadoop 数据库.HBase 的计算和存储能力 ...
- Hbase:原理和设计
转载自:http://www.sysdb.cn/index.php/2016/01/10/hbase_principle/ ,感谢原作者. 简介 HBase —— Hadoop Database的简称 ...
- HBase Snapshot原理和实现
HBase 从0.95开始引入了Snapshot,可以对table进行Snapshot,也可以Restore到Snapshot.Snapshot可以在线做,也可以离线做.Snapshot的实现不涉及到 ...
随机推荐
- SpringBoot之使用jpa/hibernate
Springboot版本是2.1.3.RELEASE 1.依赖 List-1.1 <dependency> <groupId>org.springframework.boot& ...
- 【Learning】矩阵树定理 Matrix-Tree
矩阵树定理 Matrix Tree 矩阵树定理主要用于图的生成树计数. 看到给出图求生成树的这类问题就大概要往这方面想了. 算法会根据图构造出一个特殊的基尔霍夫矩阵\(A\),接着根据矩阵树定理, ...
- 洛谷 P3205 [HNOI2010]合唱队 解题报告
P3205 [HNOI2010]合唱队 题目描述 为了在即将到来的晚会上有更好的演出效果,作为AAA合唱队负责人的小A需要将合唱队的人根据他们的身高排出一个队形.假定合唱队一共N个人,第i个人的身高为 ...
- 【bzoj2034】 2009国家集训队—最大收益
http://www.lydsy.com/JudgeOnline/problem.php?id=2034 (题目链接) 题意 n个任务,每个任务只需要一个时刻就可以完成,完成后获得${W_i}$的收益 ...
- 搭建ELK收集Nginx日志
众所周知,ELK是日志收集套装,这里就不多做介绍了. 画了一个粗略的架构图,如下: 这里实际用了三个节点,系统版本为CentOS6.6,ES版本为2.3.5,logstash版本为2.4.0,kiba ...
- google插件备份与安装
说明 chrome浏览器中有很多有用的扩展程序, 但是可能因为某些原因我们不能直接去扩展程序商店进行下载获取, 如果我们自己电脑上已经通过某种方式添加了扩展程序, 想把它移植到其他没有FQ或者压根没有 ...
- 「CodePlus 2017 11 月赛」大吉大利,晚上吃鸡!(dij+bitset)
从S出发跑dij,从T出发跑dij,顺便最短路计数. 令$F(x)$为$S$到$T$最短路经过$x$的方案数,显然这个是可以用$S$到$x$的方案数乘$T$到$x$的方案数来得到. 然后第一个条件就变 ...
- 流媒体协议之RTSP服务端的实现20180629
RtspServer是参考了live555和jrtplib实现的,但代码全部是重新书写的,所以不依赖于任何第三方库即可编译和运行, 目前仅支持h264和G711格式,这是rtp打包时决定的,后续将不断 ...
- SSH框架搭建问题总结
1.eclipse中tomcat配置是否正确?能否在网页中访问的到? 如何在eclipse中配置tomcat就不说了,我们看下问题,在网页上访问tomcat的地址,为什么出现404错误呢? 解决办法: ...
- IntelliJIDEA永久注册使用
1. 首先下载本地IntelliJIDEA注册服务机(没有密码哦) http://pan.baidu.com/s/1hsyZp0C 2.解压后进入解压的文件夹,找到自己操作系统对应的版本,我这里使用 ...