HbaseWAL
1、WAL意为 Write Ahead Log ,类似MySQL中的binlog,用来做灾难恢复之用,HLog记录数据的所有变更,一旦数据修改,就可以从Log中进行恢复。
Hbase采用类LSM的架构体系,数据写入并没有直接写入文件,而是会先写入缓存(Memstore),在满足一定条件下缓存缓存数据再会异步刷新到磁盘。为了防止数据写入缓存之后不会因为
RegionServer进程发生异常导致数据丢失,在写入缓存之前会首先将数据顺序写入HLog中。如果不幸一旦发生RegionServer宕机或者其他异常,这种设计可以从HLog中进行日志回放进行数据补救,保证数据不丢失。
HBase故障恢复的最大看点就在于如何通过HLog回放补救丢失的数据。
WAL(Write-Ahead Logging)是一种高效的日志算法,几乎是所有非内存数据库提升写性能的不二法门,基本原理是在数据写入之前首先顺序写入日志,然后再写入缓存,等到缓存写满之后统一落盘。
之所以能够提升写性能,是因为WAL将一次随机写转化为了一次顺序写加一次内存写。提升写性能的同时,WAL可以保证数据的可靠性,即在任何情况下数据不丢失。假如一次写入完成之后发生了宕机,即使所有缓存中的数据丢失,
也可以通过恢复日志还原出丢失的数据。
每个Region Server维护一个HLog,而不是每个Region一个。这样不同region(来自不同table)的日志会混在一起,这样做的目的是不断追加单个文件相对于同时写多个文件而言,可以减少磁盘寻址次数,因此可以提高对table的写性能。
带来的麻烦是,如果一台region server下线,为了恢复其上的Region,需要将RegionServer上的log进行拆分,然后分发到其他RegionServer上进行恢复。
HLog文件就是一个普通的Hadoop Sequence File:
1、HLog Sequence File 的key是HLogKey 对象,HLogKey中记录了写入数据的归属信息,除了table和region名字外,同时还包括 sequence number 和timestamp,timestamp是写入时间,sequence number的起始值为0,或者是最近一次存入文件系统中 sequence number。
2、HLog Sequence File 的Value是HBase 的keyvalue对象,即对应HFile中的keyValue。
WAL持久化等级
1、SKIP_WAL:只写缓存,不写HLog日志。这种方式因为只写内存,因此可以极大的提升写入性能,但是数据有丢失的风险。在实际应用过程中并不建议设置此等级,除非确认不要求数据的可靠性。
2、ASYNC_WL:异步将数据写入HLog日志中。
3、SYNC_WAL:同步将数据写入日志文件中,需要注意的是数据只是被写入文件系统中,并没有真正落盘。
4、FSYNC_WAL:同步将数据写入日志文件并强制落盘。最严格的日志写入等级,可以保证数据不会丢失,但是性能相对比较差。
5、USER_DEFAULT:默认如果用户没有指定持久化等级,Hbase使用SYNC_WAL等级持久化数据。
用户可以通过客户端设置WAL持久化等级,代码:
put.setDurability(Durability.SYNC_WAL);
2、MemStore和StoreFile
一个HRegion由多个Store组成,每个Store包含一个列族的所有数据
Store包括位于内存的一个MemStore和位于硬盘的多个StoreFile组成
写操作先写MemStore,当MemStore中的数据量达到某个阈值,HRegionServer启动启动flushcache进程写入Storefile,每次写入形成一个单独的一个HFile。
当总Storefile大小超过一定阈值后,会把当前的Region分割成两个,并由HMaster分配给相应的Region服务器,实现负载均衡。
客户端检索数据时,先在Memstore找,找不到再找Storefile。
3、当memstore达到一定的大小或是经历一个特定的时间之后,数据就会异步的连续写入到文件系统中。在写入的过程中,数据以一种不稳定的状态存放在内存中,即使在服务器完全崩溃的情况下,WAL也能保证数据不会丢失,因为
实际的日志存储在HDFS上。其他服务器可以打开日志文件然后回放这些修改,恢复操作并不在这些崩溃的物理服务器上进行。
HbaseWAL的更多相关文章
- hbase master一直报启动不起来问题(region空洞和region卡在spilt)
数据不重要或者一直卡着的情况下,可以切换hdfs用户到hbase的wal目录下对spilting的数据进行重命名.具体步骤如下 1.关闭hbase集群 2.切换hdfs用户 3.到hbasewal目录 ...
随机推荐
- python基础之列表推导式
#列表推导式 ---> 返回的是列表 for语句 效率更高# 1*1 2*2 3*3 4*4 5*5 6*6 7*7 8*8 9*9# import time# to = time.clock( ...
- React中组件之间通信的方式
一.是什么 我们将组件间通信可以拆分为两个词: 组件 通信 回顾Vue系列的文章,组件是vue中最强大的功能之一,同样组件化是React的核心思想 相比vue,React的组件更加灵活和多样,按照不同 ...
- Leetcode:637. 二叉树的层平均值
Leetcode:637. 二叉树的层平均值 Leetcode:637. 二叉树的层平均值 Talk is cheap . Show me the code . /** * Definition fo ...
- vue3 自学(一)基础知识学习和搭建一个脚手架
两年前曾自学过几天vue,那时候版本还是vue2,但后来项目中一直没用到,当时也觉得学习成本太高,便没有继续学习下去.初学者可以看下链接文章以前的吐槽~~ 学习 Vue ,从入门到放弃 最近部门决定升 ...
- JS 实现一个 LRU 算法
LRU 是 Least Recently Used 的缩写,即最近最少使用,是一种常用的页面置换算法,选择内存中最近最久未使用的页面予以淘汰. 可用的 NodeJS 库见node-lru-cache ...
- 嵌套div的onClick事件问题
嵌套div的onClick事件问题我在下面的代码中的外层div中加了onClick事件,这样当鼠标点击这个div的时候就会跳转了.但是我在图片上加了一些其他效果,所以当鼠标点击中间的img时不能触发跳 ...
- 【译】使用 Source Link 提高调试效率
有多少次你在调试器中追踪一个缺陷,通过代码,观察局部变量的值改变,当你碰壁--不是你所期待的值和你不能进入的方法,因为它来自类库或 .NET 框架本身:或者您设置了一个条件断点,等待检查某个值是如何设 ...
- SoundPool概率性无声问题
public class SoundManager { private static SoundManager instance; private SoundPool mSoundPool; priv ...
- [剑指 Offer 28. 对称的二叉树]
剑指 Offer 28. 对称的二叉树 请实现一个函数,用来判断一棵二叉树是不是对称的.如果一棵二叉树和它的镜像一样,那么它是对称的. 例如,二叉树 [1,2,2,3,4,4,3] 是对称的. 1 / ...
- 超详细!Vue-Router手把手教程
目录 1,router-view 2,router-link 3,重定向redirect 4,路由别名 5,路由传参props 5.1,布尔模式 5.2,对象模式 5.3,函数模式 6,路由守卫 6. ...