解读Google分布式锁服务

背景介绍

在2010年4月，Google的网页索引更新实现了实时更新，在今年的OSDI大会上，Google首次公布了有关这一技术的论文。

在此之前，Google的索引更新，采用的的批处理的方式(map/reduce)，也就是当增量数据达到一定规模之后，把增量数据和全量索引库Join，得到最新的索引数据。采用新的索引更新系统之后，数据的生命周期缩短了50%，所谓的数据生命周期是指，数据从网页上爬下来，到展现在搜索结果中这段时间间隔，但是正如Google所强调的，这一系统仅仅是为增量更新所建立的，并没有取代map/reduce的批量作业处理模式。

架构Overview

Google的新一代增量索引更新 – Percolator，是建立在Bigtable之上，提供的API也尽量接近Bigtable的方式，所以整个架构大致是如下的样子：

事务（Transaction）和锁（Lock）有区别吗？

在关系数据库领域，二者还是有很大区别的，但是对Percolator而言，Transaction = Lock，所以我们这里讨论的分布式锁，也可以说是分布式事务，所以下面提到的锁或者事务，指的都是同一件事。

Percolator利用Bigtable原有的行锁，再加上自己的一些巧妙的做法，实现了分布式锁服务，这就意味着，Google可以实时的更新PB级别的索引库。最近我们发现Google的搜索结果时效性很好，刚写好的文章，几分钟之后，Google就可以检索到，原因就在Google的Crawler在抓到新的网页之后，不用再等待一定的时间批量更新索引，而是实时的更新，数据生命周期大大缩短。

Percolator支持跨行，跨表的事务，充分利用了Bigtable本身已经有的行事务、备份机制。

简单的示例

在分析Percolator的细节之前，先看一个简单的例子，对Percolator有一个大概的认识，有利于后面的理解。

下面的这个例子是把UserA的人气分减掉10，加到UserB的人气分上，key表示每一行的key，data，lock，write是列名字，data存储数据，lock存储锁状态，write表示事务提交后的数据位置引用.

初始状态：UserA有100个人气分，UserB有50个人气分

最终状态：UserA有90个人气分，UserB有60个人气分

Step0(初始状态)

Key	Data	Lock	Write
UserA	100:t1
UserB	50:t2

Step1(从UserA中拿出10个人气分)

Key	Data	Lock	Write
UserA	90:t2100:t1	Primary Lock:t2	t2
UserB	50:t2

Step2(把UserB的人气分加10)

Key	Data	Lock	Write
UserA	90:t2100:t1	primary_lock:t2	t2
UserB	60:t350:t2	Primary_lock:UserA@data	t3

Step3(事务提交)

A：先提交primary(移除锁，写入新的timestamp，在write列写入新数据的位置引用)

Key

Data

Lock

Write

UserA

t390:t2

100:t1

t3:data:t2t2

UserB

60:t350:t2

Primary_lock@UserA.data

B：再提交非primary（步骤同上）

Key

Data

Lock

Write

UserA

t390:t2

100:t1

t3:data:t2t2

UserB

t460:t3

50:t2

t4:data:t3t3

事务结束了，UserA有90个人气分，timestamp是t3，Userb有60个人气分，timestamp是t4。（至于锁的写法和write列为什么那样写，后面再详细解释）

事务的执行过程

Percolator锁分为两种，primary和non-primary，在事务提交的过程中，先提交primary锁，无论是跨行还是跨表，primary锁都是没有区别的。

事务的提交

事务的提交的过程分两步，以UserA为例：

首先，在write列写入新数据的位置引用，注意不是数据，是引用（理解成指针会更形象），上面step3A 中t3:data:t2表示在t3时刻提交的数据，最新的数据在data列的t2 timestamp

然后，移除lock列的内容。

因为Bigtable支持行锁定，所以上述两步都是在一个Bigtable事务内完成的。

读操作

当一个client在发起读操作之后，首先会向oracle server申请time stamp，接下来Percolator会检查lock列，如果lock列不空，那么读操作试图移除（修复）这个lock或者等待，在后续锁冲突处理详细介绍如何修复。

补充：oracle发放time stamp是严格递增的，而且不是一次发放一个，而是采取批量的方式。

写操作

当一个client发起写操作之后，首先会向oracle server申请time stamp，Percolator会检查write列，如果write列的timestamp大于当前client的timestamp，那么写失败（不能覆盖新的数据 write-write conflict）；如果lock列有锁存在，说明当前行正在被另外的client锁定，client要么写失败，要么试图修复(lock conflict)！

Notify机制

Percolator定义了一系列的Observer（类似于数据库的trigger），位于Bigtable的tablet server上，Observer会监视某一列或者某几列，当数据发生变化就会触发Observer，Observer执行完之后，又会创建或者通知后续的Observer，从而形成一个通知的传递。

锁冲突的处理

当一个client在事务提交阶段，crash掉了，那么锁还保留，这样后续的client访问就会被阻止，这种情况叫做锁冲突，Percolator提供了一种简单的机制来解决这个问题。

每个client定期向Chubby Server写入token，表明自己还活着，当某个client发现锁冲突，那么会检查持有锁的client是否还活着，如果client是working状态，那么client等待锁释放。否则client要清除掉当前锁。

Roll forward & roll back：

Client先检查primary lock是否存在，因为事务提交先从primary开始，如果primary不存在，那么说明前面的client已经提交了数据，所以client执行roll forward操作：把non-primary对应的数据提交，并且清除non-primary lock；如果primary存在，说明前面的client还没有提交数据就crash了，此时client执行roll back操作：把primary和non-primary的数据清除掉，并且清除lock。

小结

Google的分布式锁服务很好了支持了增量索引的实时更新，缩短了数据的生命周期。本文对notify机制介绍的比较简单，感兴趣的请参考论文原文。

摘自：http://my.oschina.net/u/593721/blog/100389

顶: 0

解读Google分布式锁服务的更多相关文章

[转载] zookeeper 分布式锁服务
转载自http://www.cnblogs.com/shanyou/archive/2012/09/22/2697818.html 分布式锁服务在大家的项目中或许用的不多,因为大家都把排他放在数据库那 ...
Anno&Viper -分布式锁服务端怎么实现
1.Anno简介 Anno是一个微服务框架引擎.入门简单.安全.稳定.高可用.全平台可监控.依赖第三方框架少.底层通讯RPC(Remote Procedure Call)采用稳定可靠经过无数成功项目验 ...
Redis分布式锁服务(八)
阅读目录: 概述分布式锁多实例分布式锁总结概述在多线程环境下,通常会使用锁来保证有且只有一个线程来操作共享资源.比如: object obj = new object(); lock (ob ...
Redis分布式锁服务（转）
原文:http://www.cnblogs.com/mushroom/p/4752499.html 概述在多线程环境下,通常会使用锁来保证有且只有一个线程来操作共享资源.比如: object obj ...
redis实现分布式锁服务
译自Redis官方文档在多线程共享临界资源的场景下,分布式锁是一种非常重要的组件.许多库使用不同的方式使用redis实现一个分布式锁管理.其中有一部分简单的实现方式可靠性不足,可以通过一些简单的修改 ...
一篇文章带你解读Redis分布式锁的发展史和正确实现方式
前言近两年来微服务变得越来越热门,越来越多的应用部署在分布式环境中,在分布式环境中,数据一致性是一直以来需要关注并且去解决的问题,分布式锁也就成为了一种广泛使用的技术,常用的分布式实现方式为Redi ...
Redis分布式锁服务
阅读目录: 概述分布式锁多实例分布式锁总结概述在多线程环境下,通常会使用锁来保证有且只有一个线程来操作共享资源.比如: object obj = new object(); lock (ob ...
又长又细，万字长文带你解读Redisson分布式锁的源码
前言上一篇文章写了Redis分布式锁的原理和缺陷,觉得有些不过瘾,只是简单的介绍了下Redisson这个框架,具体的原理什么的还没说过呢.趁年前项目忙的差不多了,反正闲着也是闲着,不如把Rediss ...
深入解读Redis分布式锁
之前码甲哥写了两篇有关线程安全的文章: 你管这叫线程安全? .NET八股文:线程同步技术解读分布式锁是"线程同步"的延续最近首度应用"分布式锁",现在想想, ...

随机推荐

Duanxx的图像处理学习：透视变换(一)
当人用眼睛看事物的时候,会感觉到近处的东西是比远处的东西要大一些的,通俗的说,这就是透视. 总的来说.透视变换是将3D的世界转换到2D图像上的一种手段,人的视觉系统和摄像头视觉系统也是基于这一工作原理 ...
USB数据流模型
USB数据流模型 <<USB Specification11>> << USB Specification20>> << Linux Dev ...
Snap.svg中transform旋转值的“r+数组”表现形式
Snap.svg中transform的值还可以写为类似以下这种形式: transform:'r'+[100,[50,50]]; 这种写法的意思是,让元素以(50,50)为旋转中心点,然后旋转100度. ...
<转> Python的优雅技巧
枚举不要这么做: 全选复制放进笔记 i = 0 for item in iterable: print i, item i += 1 而是这样: 全选复制放进笔记 for i, item in en ...
C# Convert an enum to other type of enum
Sometimes, if we want to do convert between two enums, firstly, we may think about one way: var myGe ...
IOS 学习笔记(5) 控件文本视图(UITextView)的使用方法
相对于UILabell所支持的较短文本内容,UITextView对于长文本的支持更好.UITextView能够以滚动的方式全部浏览到长文本,并且就像UILabel那样,从ISO6,他也提供了对NSAt ...
linq to entity asp.net mvc 多字段排序
字段1 降序字段2 降序 var str = db.xxx.OrderByDescending(p=>p.字段1).ThenByDescending(p=>p.字段2) ThenBy - ...
去确认CP210x UART Bridge的USB的VID和PID
[背景] 之前买的USB口的HART猫: [记录]为USB接口的HART猫ExSaf ESH232U安装对应的USB转RS232驱动其中内部是USB转RS232. 然后打算去看看之前的自己此处的某个 ...
解读ECMAScript 6箭头函数
箭头函数是ECMAScript 6最受关注的更新内容之一.它引入了一种用「箭头」(=>)来定义函数的新语法,它…它碉堡了~.箭头函数与传统的JavaScript函数主要区别在于以下几点: 对 t ...
ThinkPHP 3.1.2 模板中的基本语法<1>
# # ThinkPHP 3.1.2 模板中的基本语法一.传统的方式,导入CSS和JS文件 1.css link js scr <link rel='stylesheet' type='tex ...