HBase加Solr

如何解决分布式系统数据事务一致性问题

（HBase加Solr）

摘要：对于所有的分布式系统，我想事务一致性问题是极其非常重要的问题，因为它直接影响到系统的可用性。本文以下所述所要解决的问题是：对于入HBase和Solr的过程，如何保证HBase中写入的数据与Solr中写入的数据完全一致。

关键词：HBase, Solr, 分布式, 事务, 系统架构, 大数据

作者：王安琪（博客：http://www.cnblogs.com/wgp13x/）

一、关于分布式系统事务一致性问题

Java 中有三种可以的事务模型，分别称作本地事务模型（Local Transaction Model），编程式事务模型（Programmatic Transaction Model），和声明式事务模型（Declarative Transaction Model)。事务要求包含原子性（Atomicity），一致性（Consistency），独立性（Isolation），和持久性（Durability）。

《大型网站系统与Java中间件实践》一书中分享了一些解决分步式系统一致性问题的方案构思与实践，如在第六章中谈到的消息中间件。下表展现了解决一致性方案与传统方式的对比。

传统方式是，我做完了，发你消息。解决一致性的方案的意思就是，我先发你消息，我做完了再跟你确认我做完了。这是改进后的有事务的消息中间件。

因为在非XA 环境中，消息队列的插入过程独立于数据库更新操作，ACID 准则中的原子性和独立性不能得到保证，从而整体上数据完整性受到损害。使用X/Open 的XA 接口，我们便能够做到协调多个资源，保证维持ACID 准则。

在《淘宝技术这十年》这本书里也提到这么一段描写“用户在银行的网关付钱后，银行需要通知到支付宝，但银行的系统不一定能发出通知；如果通知发出了，不一定能通知到；如果通知到了，不一定不重复通知一遍。这个状况在支付宝持续了很长时间，非常痛苦。支付宝从淘宝剥离出来的时候，淘宝和支付宝之间的通信也面临同样的问题，那是2005年的事情，支付宝的架构师鲁肃提出用MQ（Message Queue）的方式来解决这个问题，我负责淘宝这边读取消息的模块。但我们发现消息数量上来之后，常常造成拥堵，消息的顺序也会出错，在系统挂掉的时候，消息也会丢掉，这样非常不保险。然后鲁肃提出做一个系统框架上的解决方案，把要发出的通知存放到数据库中，如果实时发送失败，再用一个时间程序来周期性地发送这些通知，系统记录下消息的中间状态和时间戳，这样保证消息一定能发出，也一定能通知到，且通知带有时间顺序，这些通知甚至可以实现事务性的操作。”

一致性更是可以分为强一致性和弱一致性两种，弱一致性可以允许某一时间间隔内的偶尔不一致，强一致性的要求要高很多。在实际中，弱一致性往往就能达到业务要求，甚至某些银行系统都只要求弱一致性即可，允许不一致性的窗口存在，只要不造成损失即可。

对于每一种分布式系统，其组织方式各不相同，实现形式也各有千秋，业务要求更是千变万化，因此要因地制宜的实施一致性方案。表6-5提出的解决办法是要求处理方在完成业务操作后主动发送给消息中间件这一结果，而后消息中间件确认后再做处理，这样是可以保证事务性。但对于表6-5提出的解决办法，在入HBase和Solr的流程中并不能适用。因为为了保证数据写入Solr的性能，入Solr使用的是Concurrent....方式，然而此种方式并不会返回是否入Solr成功，因此这种异步特性不是表6-5中方案所能解决的。

二、针对HBase和Solr分布式系统事务一致性解决方案

在此，我们对于HBase加Solr这种分布式系统，经过种种构思-推翻-再构思-再推翻，终于成功，特设计了如下事务一致性解决方案。

1、写入数据到HBase和Solr

图1 HBase加Solr分布式系统事务一致性解决方案(写入数据)

从图1时序图中可以看出，其思想与表6-5方案还是一致的，但实现手法则完全不同。它的本质即是：需要确认数据处理成功后，方可证实数据同步。关键在于，如何确认数据处理成功，靠HBase返回？靠Solr返回？不行。那只有做个缓存，先把没确认的存着，等后期有时间了挨个确认。这里的MySQL就起到了方案所述的缓存的作用。我们先把数据写入到MySQL缓存起来，写入时数据状态为0，说明还没有提交HBase和Solr，每间隔3秒我们使用“入库线程”取状态为0的数据，提交到HBase和Solr中，并将数据状态更新为2，以此说明此数据已经入了库。如果没有“核查线程”做数据一致性检查，则数据一致性无法保证。有可能存在这样一种情况：HBase里数据写入成功了，Solr里出于某种原因没有写入成功（Solr异常了或网络不通了等等）。如果此不一致性很久没有被发现，那么就会在HBase中出现一些根本无法取得的飘浮数据。我们的“核查线程”可以保证HBase中和Solr里的数据是一致的。

2、从HBase和Solr中删除数据

现在我们已经做到了写入数据操作的事务一致性，同理的还有，删除数据操作的事务一致性，更新数据操作的事务一致性，都可以以这种思想实现。

图2 HBase加Solr分布式系统事务一致性解决方案(删除数据)

从图2中可以看出，删除数据先从Solr中删除，再从HBase中删除，同样的，如果发生某种不可预见的异常，HBase中也会出现一些根本无法取得的飘浮数据，这种情况很少见，然而一旦发生，我们的“核查线程”可以保证HBase中和Solr里的数据是一致的。

3、更新数据到HBase和Solr

图3 HBase加Solr分布式系统事务一致性解决方案(更新数据)

更新数据的一致性解决方案要稍微复杂一些，因为对HBase和Solr中数据核查某一数据是否已经正确更新是很难做到的。你可以将HBase中的数据一个个地取出来与更新数据进行比较，查看是否已经正确更新；但你没有办法将更新数据所有的字段去Solr中查，是否更新到Solr。因此我们设计的方案是：先对要更新的RowKey-数据生成一个新的newRowKey，再将HBase和Solr中的原始数据进行删除，然后将更新后的数据添加入HBase和Solr中，这样就是完成了一次更新数据的操作，将更新分成了删除与添加两步进行操作，核查此数据是否已经正确更新也因此有迹可寻，此时只需要搜索HBase和Solr中有newRowKey即可证明数据已经更新成功。

三、总结

在这里，我们引用一下《支付宝数据平台》中的海狗系统的架构设计。海狗系统（ARSC）——准实时搜索查询，它提供千亿级别数据实时查询和全文检索、支持每天10亿+级别的数据更新。它的实时性可以保证实时搜索延迟3s、查询和插入TPS > 1.5WTPS。数据容量线性扩展，Schema扩展基于HBase列式无限扩张，基于ZK动态感知节点状态自动容灾。下图即简单表明了其流程。

粗看不起眼，琢磨一下便知其是考虑到了HBase和Solr的数据一致性的。在HBase中的MQ表就是起到上面我们的设计方案中的MySQL的作用。在d步骤中，才批量删除处理过的数据，MQ表是留凭证用的。HBase在高性能处理方面还是要远远优于MySQL，如果可以，我们设计方案中的MySQL也可以用HBase取代。

做个总结：无论是我们设计方案，还是其他类似的分布式系统事务性解决方案，其的本质思想是一样的，即是：做个缓存，先把没确认的存着，等后期有时间了挨个确认。

“既然计算是异步的，那么反馈也应该是异步的，你完全可以让SendMail将发送结果写入数据库，并生成报表，然后让应用程序定期对报告中发送失败的邮件执行再次发送。这里需要假设失败的情况并不是很多。”在《构建高性能web站点》第17章分布式计算-异布计算中对此类问题的解决方法，也是构成我们解决HBase和Solr分布式系统事务一致性问题的重要指导，感谢作者郭欣。当然也感谢《大型网站系统与Java中间件实践》的作者曾宪杰、《构建高性能web站点》的作者郭欣。更感谢分享海狗系统设计的蒋杰（花名：平原君），以及众多乐于分享技术的人们。

看这些书，觉得系统架构方面的技术真的是非常庞大，佩服阿里的那群将数据从小做到大的问题解决者。千里之行，始于足下。

来自王安琪

作者：Angel

出处：http://www.cnblogs.com/wgp13x/

欢迎转载或分享，但请务必声明文章出处。

如果文章对您有帮助，希望你能推荐或关注。

公告

王安琪，英文名Angel，南京邮电大学计算机应用技术硕士学位。熟悉Java、C#编程语言。专注于WebService、海量数据处理、搜索引擎技术、消息中间件技术、分布式文件存储、.NET应用程序开发、系统架构设计。

主要从事大数据管理系统的研发，项目经理，系统架构师，就职于江苏金陵科技集团有限公司。

Email：aitanjupt@hotmail.com

QQ：289770363

昵称：王安琪

HBase加Solr的更多相关文章

如何解决分布式系统数据事务一致性问题（HBase加Solr）
如何解决分布式系统数据事务一致性问题 (HBase加Solr) 摘要:对于所有的分布式系统,我想事务一致性问题是极其非常重要的问题,因为它直接影响到系统的可用性.本文以下所述所要解决的问题是:对于入H ...
hbase基于solr配置二级索引
一.概述 Hbase适用于大表的存储,通过单一的RowKey查询虽然能快速查询,但是对于复杂查询,尤其分页.查询总数等,实现方案浪费计算资源,所以可以针对hbase数据创建二级索引(Hbase Sec ...
大数据架构-使用HBase和Solr将存储与索引放在不同的机器上
大数据架构-使用HBase和Solr将存储与索引放在不同的机器上摘要:HBase可以通过协处理器Coprocessor的方式向Solr发出请求,Solr对于接收到的数据可以做相关的同步:增.删.改索 ...
Hbase到Solr同步常用操作
Hbase到Solr同步常用操作 1. 整体流程 2. 常用操作 Hbase常用操作 Solr常用操作 hbase-index常用操作 3. 其他资料 Lily HBase Indexer使用整理 h ...
Hbase-二级索引 Hbase+Hbase-indexer+solr （CDH）
最近一段时间工作涉及到hbase sql查询和可视化展示的工作,hbase作为列存储,数据单一为二进制数组,本身就不擅长sql查询:而且有hive来作为补充作为sql查询和存储,但是皮皮虾需要低延迟的 ...
【大数据技术】HBase与Solr系统架构设计
如何在保证存储量的情况下,又能保证数据的检索速度. HBase提供了完善的海量数据存储机制,Solr.SolrCloud提供了一整套的数据检索方案. 使用HBase搭建结构数据存储云,用来存储海量数据 ...
Hbase到Solr数据同步及Solr分离实战
1. 起因由于历史原因,公司的数据是持久化在HBase中,查询是通过Solr来实现,这这样的设计必然涉及到要把Hbase中的数据实时同步到Solr,但所有的服务都在一个同一个集群及每台机子都安装了很 ...
CDH使用Solr实现HBase二级索引
一.为什么要使用Solr做二级索引二.实时查询方案三.部署流程3.1 安装HBase.Solr3.2 增加HBase复制功能3.3创建相应的 SolrCloud 集合3.4 创建 Lily HBa ...
基于Solr实现HBase的二级索引
文章来源:http://www.open-open.com/lib/view/open1421501717312.html 实现目的: 由于hbase基于行健有序存储,在查询时使用行健十分高效,然后想 ...

随机推荐

iOS8推送消息的回复处理速度
iOS8我们有一个新的通知中心,我们有一个新的通报机制.当在屏幕的顶部仅需要接收一个推拉向下,你可以看到高速接口,天赋并不需要输入应用程序的操作.锁定屏幕,用于高速处理可以推动项目. 推送信息,再次提 ...
解决iOS app集成共享QQ场地，微信的朋友，朋友等功能圈，不能采用苹果公司的审计问题
最近提交的应用程序App Store时刻,由于App综合QQ登录.份额QQ场地.微信等功能.被拒绝.很郁闷:在最佳.想想办法,这个问题是可以解决. 当共享平台列表显示.根据推断当前设备被安装在一节Ap ...
SpringMVC+Spring+Hibernate的小样例
Strusts2+Spring+Hibernate尽管是主流的WEB开发框架,可是SpringMVC有越来越多的人使用了.确实也很好用.用得爽! 这里实现了一个SpringMVC+Spring+Hib ...
剖析html对标准标签和自定义标签闭合与不闭合渲染问题
昨天在修改去年写的系统的时候无意中看到了当时写的一个利用标准标签未闭合在单元格内把整个单元格颜色渲染成红色的效果,如下: 当时的问题是从后台返回来的是个int整数而%是写在页面上的如图这时候就出现 ...
java: org.luaj.vm2.LuaError:XXX module not found lua脚本初始化出错（转）
我遇到这个错误是因为在引用脚本目录时,设置错了位置.设置成脚本所在目录的上级目录. lua使用和加载初始化方法在java中使用lua,使用需要引用 luaj-jse-2.0.2.jar 同时需要使用 ...
S如何解决安卓DK无法下载Package问题
安装一些用户Android SDK后.打开Android SDK Manager下载API当总是显示"Done loading packages"却迟迟不能前进.自己也出现了这样的 ...
假设synthesize省略,语义属性声明assign retain copy时间,为了实现自己的setter和getter方法
假设synthesize省略,而且我们自己实现setter和getter方法时,系统就不会生成相应的setter和getter方法,还有实例变量 1,当把语义特性声明为assign时,setter和g ...
Flappy bird源代码（略吊）
#include<stdio.h> #include<stdlib.h> #include<conio.h> #include<time.h> #inc ...
笔试题&面试题：输入一个维度，逆时针打印出一个指定矩阵
称号:考虑到用户层面.打印出指定的矩阵,例如,一个给定的用户10,例如,下面的输出应被视为在图: 程序如下所示: #include <stdio.h> #include <mallo ...
【Android进阶】android:configChanges属性总结
android中的组件Activity在manifest.xml文件中可以指定参数android:ConfigChanges,用于捕获手机状态的改变. 在Activity中添加了android:con ...

HBase加Solr

HBase加Solr

一、关于分布式系统事务一致性问题

二、针对HBase和Solr分布式系统事务一致性解决方案

1、写入数据到HBase和Solr

2、从HBase和Solr中删除数据

3、更新数据到HBase和Solr

三、总结

公告

HBase加Solr的更多相关文章

随机推荐

热门专题