Hbase Replication 介绍

现状

Hbase 的replication目前在业界使用并不多见，原因有很多方面，比如说HDFS目前已经有多份备份在某种程度上帮助HBASE底层数据的安全性，而且很多公司的集群规模比较小并且对数据重要程度并不是很高，比如一些日志系统或者是作为一个历史数据的第二个仓库，来分流大量的读请求。这样及时数据丢失了也可以在其他的地方（数据库集群）中找回来。对于这样的情况Replication的Slave集群变得可有可无，重要性根本得不到体现。故如果管理员把hbase只作为一个低安全级别和非重要业务的一个管理平台，那么下面对于Replication集群的讨论可以不用浪费时间来阅读。目前阿里集团有相当重要的应用存在于Hbase之上，包括在线和非在线的应用。那么Hbase数据的安全性也显得弥足重要。对于单集群的存在的问题通常来自以下几个方面：

数据管理人员的失误，不可逆的DDL操作。

底层HDFS文件BLOCK块corruption

短时间过度的读数据对集群造成的压力，增加服务器应对这种情况比较浪费资源。

系统升级，维护，诊断问题会造成集群不可用时间增长。

双写的原子性难以保证

不可预计的一些原因。（如机房断电，大规模硬件损坏，断网等）

离线应用的MR计算对在线读写造成的较大的延迟影响

如果为以上问题担忧的话，Replication构建主被集群则是一种很好的选择，我们也在这方面的做了一些简单的研究。下面简单说下我们的使用中遇到的问题和采取的方法

常用的在线备份方案及其比较

对于数据中心的数据冗余的备份方案，目前从一致性，事务性，延迟，吞吐量，数据损失，Failover几个角度来分析有一下几种方案。

• 简单备份模式通过定时不定时的Dump出集群数据保证数据的安全性，通常可以通过snapshot或设置时间戳来dump数据来实现这种方案，如果方案简介，设计优雅可以做到对在线数据中心低干扰或无干扰的数据备份。但这种方案缺点也是显而易见的，只是对时间点之前的数据安全性得到保障，如果发生突发事件会导致不可避免的整段时间的数据丢失，为很多人无法接受。

• 主从模式（Master-Slave）这种模式比起简单的备份模式多了很多优点，可以通过最终一致性保证数据的一致，数据从主集群到备集群延时较低，异步写入不会对主集群带来性能压力，基本不会产生多少性能的影响，突发事件来临时数据丢失很少，并且主集群的事务在备集群也可以得以保证。一般通过构造较好的Log系统加上check
Point来实现，可以实现读写分离，主集群可以担当读写服务，但备集群一般只承担读服务。

• 主主模式 (Master-Master)原理总体类似于主从模式，不同的是2个集群可以互相承担写的分离，都可承担读写服务。

• 2阶段提交这种方案保证了强一致性和事务，服务器返回给客户端成功则表明数据一定已经成功备份，不会造成任何数据丢失。每台服务器都可承担读写服务。但缺点是造成集群延迟较高，总体吞吐下降。

• Paxos算法基于Paxos算法的实现的强一致性方案，同一客户端连接的server能保证数据的一致性。缺点是实现复杂，集群延迟和吞吐随着集群服务器增加而边差。

我们可以通过下面的一个图标来说明简化一下上面各种模式的特点。

	备份	主从	主主	2PC	Paxos
数据一致性	差	保证最终一致性		强一致性
事务	无	主集群保证	分别保证	主集群保证	主集群保证
延迟	低	低	低	高	高
吞吐量	高	高	高	低	低
数据丢失	大量	最近短暂时间丢失	最近短暂时间丢失	无丢失	无丢失
集群服务	无服务	主读写从只读	读写	读写	读写

• Hbase Replication主从模式通过指定备集群，将Hlog里面的数据异步发送到备集群，对主集群基本没有性能影响，数据延时时间较短。主集群提供读写服务，备集群提供读服务。如果主集群有故障，可以快速切换到备集群。回过头来我们可以看看Hbase的备份状况，Hbase可以同过离线备份和在线备份提供上述的简单备份模式，主从和主主三种备份模式模式

• Hbase
简单备份模式如果表不在线比较好办，可以通过copy
table或者是distcp + add table来解决。如果表在线并且不能让其下线，只有通过snapshot方案对online的table实施备份（关于snapshot原理我发另一篇文章来解释）。

• Hbase Replication主主模式2个集群互为主备，都提供读写服务，读写分离。

通过比较，总体看来hbaseReplication的解决方案可以很好的解决集群安全性，数据安全性，读写分离，运维和客户操作失误等等的问题，并且易于管理和配置，为在线应用提供强有力的支持

原理

Replication 总体结构

Replication的总体架构比较简单，我们直接引用社区的架构图来说明，主集群的hlog中记录了所有针对table的变更（目前的ddl不同步），通过实时读取hlog中的entry来解析变更的数据然后发送到从集群中去。

Replication 工作流程

Replication Class 简介

ReplicationSourceManager：Master的replication线程主要管理者，负责初始化，启动或结束线程，同时也会watch主集群的ZK上RS节点在有RS退出或加入是时立即failover，保证数据的无丢失。

ReplicationZooKeeper :
用于控制和管理replication在Zookeeper上的一系列操作。

ReplicatioSource：replication工作线程，负责读取，解析，发送和记录Hlog

ReplicationLogCleanner：管理Replication时的hlog

ReplicationSink:
备集群用于接收主集群的hlog entry后，分析并写入本集群

NodeFailover：处理节点退出后为处理完的hlog.

ZKWatcher：watch
replication对应的zk节点，并启动对应的任务。

Replication Zookeeper上的结构

Peer
节点：管理slave集群在zk上的配置。

State节点：记录replication运行的状态

Rs
节点：记录着本集群Rs中对应的hlog同步的信息，包括check
point信息

Replication Failover

Hbase Replication
在replication时，我们通常会遇到主集群和备集群的RS预料之中或者预料之外的上线下线。在发生这种情况的时候，必须设计出一种稳定合理的并且有迭代功能的Failover处理机制来保证数据不会丢失。我们可以分别分析主从集群遇到这种情况时Failover的处理方案。

主集群RS加入
:zk会迅速watch到rs节点的创建，创建出新的replication
source线程来处理新加入到hlog.

主集群RS退出：这是最为复杂的一种情况，主要是退出的RS会有一部分的hlog没有处理完，需要稳定的shift到其他RS上，我们可以从下面三个步骤说明。

集群正常工作时，ZK的状态如下：

这是1.1.1.2这台RS突然下线，ZK会第一时间watch到这个动作，最先发现的集群中的某台（1.1.1.3）rs将其在Replication/rs下对应的lock住，并将其考到自己的节点之下。其他的RS（1.1.1.1）发现其被lock后就不做动作。

1.1.1.3启动一个新的线程处理掉所有未被同步的hlog.保证数据不丢失。同理如果1.1.1.3此时再次下线，zk节点被迭代拷贝

备集群RS加入:不影响主集群的步骤，region均匀的话客户端会自动写入到新加入到集群之中。

备集群RS退出：主集群在重试几次后发现对方down机，将其加入到deadserver的列表之中，后续不会被Call

部署

Hbase的部署详细步骤如下

Master 集群配置文件

<property>
<name>hbase.replication</name>
<value>true</value>
<description> 打开replication功能</description>
</property>
<property>
<name>replication.source.nb.capacity</name>
<value>5000</value>
<description> 主集群每次像备集群发送的entry最大的个数，推荐5000.可根据集群规模做出适当调整,slave集群服务器如果较多，可适当增大</description>
</property>
<property>
<name>replication.source.size.capacity</name>
<value>4194304</value>
<description> 主集群每次像备集群发送的entry的包的最大值大小，不推荐过大</description>
</property>
<property>
<name>replication.source.ratio</name>
<value>1</value>
<description> 主集群里使用slave服务器的百分比</description>
</property>
<property>
<name>hbase.regionserver.wal.enablecompression</name>
<value>false</value>
<description> 主集群关闭hlog的压缩</description>
</property>
<property>
<name> replication.sleep.before.failover</name>
<value>5000</value>
<description> 主集群在regionserver当机后几毫秒开始执行failover</description>
</property>

Slave 集群配置文件

<property>
<name>hbase.replication</name>
<value>true</value>
<description> 打开replication功能</description>
</property>

Master 集群配置

修改好Master集群配置文件

关联replication Master 和 Slave 集群，在 master hbase shell 中做以下操作 <下面的操作可以在master集群未启动时完成>

[Addpeer] hbase> add_peer '1',"zk1,zk2,zk3:2182:/hbase-prod" (zk 的地址，端口，和Slave的zk address)

Start replication 标志 hbase> start_replication （add peer 和 start replication 标记是直接修改zk 上的node,所以不需要启动集群做这个动作）

Slave集群配置

修改好Slave集群配置文件，并启动slave集群

根据需要在Slave中创建需要同步的table,注意每个CF的KEEP_DELETED_CELLS => 'true’属性要打开来保证为写入的顺序性。

hbase> disable_peer '1'

b) 重新服务：

hbase> enable_peer '1'

c) 停止服务

hbase> stop_replication

做好上述2个集群配置后启动Master集群，将需要同步的table 的replication scope打开。

其他一些操作：

a) 暂停服务：

暂停服务和重新服务期间的数据还是可以被同步到slave中的，而停止服务和启动服务之间的数据不会被同步。

运维经验及遇到的问题

如果写入量较大，Slave 集群必须做好table 的region提前分配，防止写入全部落入1台服务器。

暂停服务和重新服务期间的数据还是可以被同步到slave中的，而停止服务和启动服务之间的数据不会被同步。

主集群对于同步的数据大小和个数采用默认值较大，容易导致备集群内存被压垮。建议配置减少每次同步数据的大小

replication.source.size.capacity4194304

replication.source.nb.capacity2000

replication目前无法保证region级别的同步顺序性。需要在slave 集群需要打开KEEP_DELETED_CELLS=true，后续可以考虑在配置检测到属于slave集群就直接把这个值打开

stop_replication后再start_replication，如果当前写的hlog没有滚动，停止期间的日志会被重新同步过去，类似的如果stop replication后进行了rollhlog操作（手动或重启集群），重新startreplication，新写入的数据不能被马上动态同步过去，需要再rollhlog一次。

replication.source.ratio 默认值为0.1，这样导致slave集群里只有10%对外提供转发服务。导致这一台压力过大。建议测试环境将此值改为1

目前replication 对于压缩的hlog的wal entry 无法解析。导致无法同步配置压缩hlog 集群的数据。这是有数据字典引起的，目前建议主集群中的配置hbase.regionserver.wal.enablecompression设false。

不要长时间使得集群处于disable状态，这样hlog会不停的roll后在ZK上增加节点，最终使得zk节点过多不堪重负。

如何初始化slave集群数据？目前我们开发了hlogrestore工具，可以distcp主集群数据或snapshot主集群数据后，将数据导入备集群，最后追上主集群的数据后开启replication.

Master Push数据的方式会不会影响master的性能。基本不会，我们还开发出了一个slave拉数据的版本，根据一下测试结果我们发现，相差都不大。理由是master只是单线程顺序读hdfs上的文件并发送，消耗很低。

从主集群结果看，压力从20线程到200线程，两种replication都没对TPS和RT造成太大影响，CPUload也没有太大变化，在网络流量上会有一定的增长.

转载自：http://blog.csdn.net/teriy/article/details/7954203

HBase replication的更多相关文章

Hbase replication操作
1.修改hbase-site.xml文件 <property> <name>hbase.replication</name> <value>true ...
HBase replication使用
hbase-0.90.0的一个重要改进是引入了replication机制,使它的数据完整性得到了进一步的保障.虽然这一功能还不太完善,但是今后必然会变得更加重要. hbase的replication机 ...
hbase replication原理分析
本文只是从总体流程来分析replication过程,很多细节没有提及,下一篇文章准备多分析分析细节. replicationSource启动过程 org.apache.hadoop.hbase.r ...
HBase的replication原理及部署
一.hbase replication原理 hbase 的复制方式是 master-push 方式,即主集群推的方式,主要是因为每个rs都有自己的WAL. 一个master集群可以复制给多个从集群,复 ...
[How to]HBase集群备份方法--Replication机制
1.简介 HBase备份的方法在[How to]HBase集群备份方法文章中已经有些介绍,但是这些方法都不是HBase本身的特性在支持,都是通过MR计算框架结合HBase客户端的方式,或者直接拷贝HB ...
Hbase 0.92.1 Replication
原集群服务器名称服务 sht-sgmhadoopnn-01 Master,NameNode,JobTracker sht-sgmhadoopdn-01 RegionServer,DataNode, ...
HBase之集群状态
import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.*; import org.apache.had ...
Protocol Buffers in HBase
For early Hbase developers, it is often a nightmare to understand how the different modules speak am ...
HBase(五): HBase运维管理
HBase自带的很多工具可用于管理.分析.修复和调试,这些工具一部分的入口是hbase shell 客户端,另一部分是在hbase的Jar包中. 目录: hbck hfile 数据备份与恢复 Snap ...

随机推荐

代码优化>>>Android ListView适配器三级优化详解
转载本专栏每一篇博客请注明转载出处地址,尊重原创.此博客转载链接地址:点击打开链接 http://blog.csdn.net/qq_32059827/article/details/52718489 ...
T-SQL注意事项（1）——SET NOCOUNT ON的去与留
前言用了一段时间T-SQL之后,哪怕自己没用过,也多多少少看过SSMS中的SET NOCOUNT ON命令,很多性能优化文章中都有提到这个东西,它们建议尽可能使用这个命令减少网络传输的压力,那么今天 ...
Zookeeper总概
zookeeper是一个开源的分布式协调服务.是典型的分布式数据一致性的解决方案. zookeeper可以保证以下分布式一致性的特性 1. 顺序性:同一客户端发起的事务请求,最终会严格的按照发出顺序应 ...
Android View框架总结（六）View布局流程之Draw过程
请尊重分享成果,转载请注明出处: http://blog.csdn.net/hejjunlin/article/details/52236145 View的Draw时序图 ViewRootImpl.p ...
Editorial Board 、co-editor、ediitor、editor-in-chief的区别
昨天更新掘金APP-IOS之后发现一个比较严重的Bug,联系管理者报告了Bug,中途发现掘金的发布功能需要申请成为co-editor才行. 那么这里科普一下这几个名词: Editorial Board ...
【一天一道LeetCode】#299. Bulls and Cows
一天一道LeetCode 本系列文章已全部上传至我的github,地址:ZeeCoder's Github 欢迎大家关注我的新浪微博,我的新浪微博欢迎转载,转载请注明出处 (一)题目 You are ...
【一天一道LeetCode】#172. Factorial Trailing Zeroes
一天一道LeetCode 本系列文章已全部上传至我的github,地址:ZeeCoder's Github 欢迎大家关注我的新浪微博,我的新浪微博欢迎转载,转载请注明出处 (一)题目 Given a ...
Android的ANR详解（原因和方案）
ANR的定义在Android上,如果你的应用程序有一段时间响应不够灵敏,系统会向用户显示一个对话框,这个对话框称作应用程序无响应(ANR:Application Not Responding)对话框 ...
Git版本控制：Gitlab及Coding.net的使用
http://blog.csdn.net/pipisorry/article/details/50709014 Gitlab介绍 GitLab是利用 Ruby on Rails 一个开源的版本管理系统 ...
J2EE学习从菜鸟变大鸟之四 JNDI（Java Naming and Directory Interface)
掌握 J2EE 是件不是很轻松的事哈,但是很有意思,抽象抽象哈哈,因为它包含的技术和缩略语在不断地增长.Java 命名和目录接口(Java Naming and Directory Interface ...

HBase replication