basic paxos是我见过最难懂的算法,我最近一个月都在研究这个东西,自认有一些粗浅的心得,在这里写一下我对它的理解

为了降低理解难度,本文使用了大量的比喻,可能词不达意,见谅

basic paxos只为了解决一个问题:一个分布式系统如何就某个值(决议)达成一致。

先给出Wiki上对paxos的流程说明:

basic paxos分为两个阶段:

prepare 阶段:

1a) proposer选择一个提案编号n并将prepare请求发送给acceptors中的一个多数派;

1b) acceptor收到prepare消息后,如果提案的编号大于它已经回复的所有prepare消息,则acceptor将自己上次接受的提案回复给proposer,并承诺不再回复小于n的提案;

accept 阶段:

2a) 当一个proposer收到了多数acceptors对prepare的回复后,就进入批准阶段。它要向回复prepare请求的acceptors发送accept请求,包括编号n和根据P2c决定的value(如果根据P2c没有已经接受的value,那么它可以自由决定value)。

2b) 在不违背自己向其他proposer的承诺的前提下,acceptor收到accept请求后即接受这个请求。

p2c:如果一个编号为n的提案具有value v,那么存在一个多数派,要么他们中所有人都没有接受(accept)编号小于n的任何提案,要么他们已经接受(accept)的所有编号小于n的提案中编号最大的那个提案具有value v。

当然,上面说的简直不像是人话。下面我会尝试用更容易理解的方式来描述这个算法。

在拍卖行里拍卖商品时,需要对某个商品竞价。

我们使用basic paxos来限制竞价者(proposer)与记账员(acceptor),希望能在有限轮竞价之后,确定某个商品的归属。

前提

  1. 记账员有一张纸,一只铅笔,一只钢笔和一块橡皮。铅笔写下的字迹可以被抹掉,钢笔写下的字迹不能被抹掉。

  2. 竞价员可以给自己改名

  3. 有一种特殊的机制,可以让竞价者每次的报价都不相同而且递增

竞价过程分为两个阶段:

准备阶段:

1a) 竞价者选择报价n,并将报价n发给超过一半的记账员

1b) 记账员收到竞价者的报价n之后

  if(发现这个报价大于他之前收到过的所有报价) {

    if(记账员已经用钢笔写下其他竞价者的报价) {

      记账员将之前用钢笔写下的报价和竞价者的名字返回

    } else {

      if(记账员已经用铅笔写下其他竞价者的报价) {

        记账员用橡皮抹去上一次用铅笔写下的报价

      }

      用铅笔写下报价n

    }

  } else {

    忽略

  }

确认阶段:

2a) 竞价者收到了大多数记账员的回复后,竞价者会查看收到的所有回复。

  如果记账员的回复中带有其他竞价者的名字以及他的报价,那么竞价者会选择其中报价最高的那个回复,然后将自己的名字改成这个回复中带有的名字

  竞价者会向这些记账员发起确认请求,确认请求中含有自己的报价n和自己的名字(名字可能在上一行中被更新)

2b) 记账员收到确认请求之后

  if(纸上只有铅笔写的报价n && 纸上用铅笔写下的报价n == 确认请求里的n) {

    记账员确认这个请求,用钢笔将确认请求中竞价者的名字和报价n写在纸上

  }

补充:如果竞价者没有收到多数派的返回,会提高自己的报价(不与其他竞价者的竞价重复)然后重新尝试竞价

场景分析

前提:我们有p1p2两个竞价者,和a1a2a3三个记账员

场景1

a. p1提出竞价请求:(1)

b. a1a2a3全部收到,都用铅笔在纸上记下(1),并回复p1

c. p1收到a1a2a3的回复,然后向a1a2a3发起确认请求(1,p1)

d. a1a2a3确认,都用钢笔将(1,p1)写在纸上

总结

这是一次正常情况下的请求,a1a2a3最终都记录了相同的值。

实际上,在这个场景里,paxos已经退化成了两阶段提交协议。

场景2

a. p1提出竞价请求:(1)

b. a1a2收到,都用铅笔在纸上记下(1),并回复p1,a3网络中断没有收到请求

c. p1收到a1a2的回复,然后向a1a2发起确认请求(1,p1)

d. a1a2确认,用钢笔将(1,p1)写在纸上

总结

虽然有一台机失效,但是依然保证了多数派写入数据的一致性。

场景3

a. p1提出竞价请求:(1)

b. a1a2a3全部收到,都用铅笔在纸上记下(1),并回复p1

c. p2提出竞价请求:(2)

d. a1a2a3全部收到,由于p2开价更高,于是放弃p1的竞价请求,都用铅笔在纸上记下(2),并回复p2

e. p1收到步骤b中a1a2a3的回复,向a1a2a3发起确认请求(1,p1)

f. 由于a1a2a3的纸上记录的价格都是2,因此不会理睬p1的确认请求

g. p2收到步骤d中a1a2a3的回复,向a1a2a3发起确认请求(2,p2)

h. a1a2a3确认,用钢笔将(2,p2)写在纸上

总结

虽然有两次竞价请求,但是最终只对其中一次竞价请求做出了回应

场景4

a. p1提出竞价请求(1)

b. a1a2收到,都用铅笔在纸上记下(1),并回复p1。而a3没有收到

c. p2提出竞价请求:(2)

d. a2a3收到,a3直接用铅笔在纸上写下(2),a2已经在纸上用铅笔记下(1),但是由于p2开价更高,于是放弃p1的竞价请求,用铅笔在纸上记下(2),并回复p2

e. p1收到步骤b中的回复,向a1a2发起确认请求(1,p1)

f. a1先收到确认请求,用钢笔在纸上记下(1,p1)。a2后收到确认请求,由于a2纸上写的是(2),因此不做反应

g. p1未能达成多数派确认

h. p2收到步骤d中的回复,向a2a3发起确认请求(2,p2)

i. a2a3收到确认请求,用钢笔在纸上记下(2,p2)

j. p2达成多数派确认

总结

两次时序上有交叉的竞价请求,导致a1a2a3的最终结果不完全一致,但是a2a3依然达成了多数派的一致性。

如果想要获得最终确认后的结果,不能只做单点读取(如果读到a1就不对了),需要做一次多数派读取才行。

场景5

a. p1提出竞价请求(1)

b. a1a2a3全部收到,都用铅笔在纸上记下(1),并回复p1

c. p2提出竞价请求:(2)

d. a1a2a3全部收到,由于p2开价更高,于是放弃p1的竞价请求,都用铅笔在纸上记下(2),并回复p2

e. p1收到步骤b中a1a2a3的回复,向a1a2a3发起确认请求(1,p1)

f. 由于a1a2a3的纸上记录的价格都是2,因此不会理睬p1的确认请求

g. p1提高价格,发起竞价请求(3)

h. a1a2a3全部收到,由于p1这次开价更高,于是放弃p2的竞价请求,都用铅笔在纸上记下(3),并回复p1

i. p2收到步骤d中a1a2a3的回复,向a1a2a3发起确认请求(2,p2)

j. 由于a1a2a3的纸上记录的价格都是3,因此不会理睬p2的确认请求

k. p2提高价格,发起竞价请求(4,p2)

。。。

总结

p1和p2不断发起时序上交叉的竞价请求,导致竞价请求不断被互相覆盖

无法形成统一的竞价结果

这个就是所谓的活锁(live lock)

场景6

a. p1提出竞价请求:(1)

b. a1a2收到,都用铅笔在纸上记下(1),并回复p1,a3没有收到请求

c. p1收到a1a2的回复,然后向a1a2发起确认请求(1, p1)

d. a1a2确认,用钢笔将(1,p1)写在纸上

e. p2提出竞价请求(2)

f. a2a3收到,a3直接将(2)用铅笔写在纸上,a2的纸上已经用钢笔写下了(1,p1),因此将此信息返回给p2

g. p2收到a2和a3的回复,发现a2的纸上已经用钢笔写下了(1,p1),因此p2将自己的名字改名为p1,然后向a2a3发起确认请求(2,p1)

h. a3纸上用铅笔写下了(2),与收到的确认请求里的价格相等,因此a3将确认请求(2,p1)用钢笔写在纸上

i. p1在a1a2a3上达成全部确认

总结

虽然p1只在a1和a2上完成多数派确认,但是后来的p2会将这个确认传递给其他的记账员

参考资料

微信自研生产级paxos类库PhxPaxos实现原理介绍

微信PaxosStore:深入浅出Paxos算法协议

架构师需要了解的Paxos原理、历程及实战

basic paxos解析的更多相关文章

  1. 从 Basic Paxos 到 Multi Paxos 到 Raft

    在朴素Paxos算法中, 各个节点经过 Prepare 和 Accept 阶段, 会达成一个值, 这个值一旦达成, 就不能被修改, 如下例子: 图示1 上面的操作几乎没有任何实用价值, 于是演变成下面 ...

  2. Paxos 实现日志复制同步(Basic Paxos)

    Paxos 实现日志复制同步 本篇文章以 John Ousterhout(斯坦福大学教授) 和 Diego Ongaro(斯坦福大学获得博士学位,Raft算法发明人) 在 Youtube 上的讲解视频 ...

  3. 理解分布式一致性:Paxos协议之Basic Paxos

    理解分布式一致性:Paxos协议之Basic Paxos 角色 Proposal Number & Agreed Value Basic Paxos Basic Paxos without f ...

  4. 从 Paxos 到 ZooKeeper

    分布式一致性 分布式文件系统.缓存系统和数据库等大型分布式存储系统中,分布式一致性都是一个重要的问题. 什么是分布式一致性?分布式一致性分为哪些类型?分布式系统达到一致性后将会是一个什么样的状态? 如 ...

  5. 分布式系统理论进阶 - Paxos

    引言 <分布式系统理论基础 - 一致性.2PC和3PC>一文介绍了一致性.达成一致性需要面临的各种问题以及2PC.3PC模型,Paxos协议在节点宕机恢复.消息无序或丢失.网络分化的场景下 ...

  6. 分布式系统理论进阶 - Paxos变种和优化

    引言 <分布式系统理论进阶 - Paxos>中我们了解了Basic Paxos.Multi Paxos的基本原理,但如果想把Paxos应用于工程实践,了解基本原理还不够. 有很多基于Pax ...

  7. 分布式一致性算法--Paxos

    Paxos算法是莱斯利·兰伯特(Leslie Lamport)1990年提出的一种基于消息传递的一致性算法.Paxos算法解决的问题是一个分布式系统如何就某个值(决议)达成一致.在工程实践意义上来说, ...

  8. Paxos算法与Zookeeper分析

    1 Paxos算法 1.1 基本定义 算法中的参与者主要分为三个角色,同时每个参与者又可兼领多个角色: ⑴proposer 提出提案,提案信息包括提案编号和提议的value; ⑵acceptor 收到 ...

  9. Paxos变种和优化

    分布式系统理论进阶 - Paxos变种和优化 引言 <分布式系统理论进阶 - Paxos>中我们了解了Basic Paxos.Multi Paxos的基本原理,但如果想把Paxos应用于工 ...

随机推荐

  1. 【bzoj1977】[BeiJing2010组队]次小生成树 Tree 最小生成树+权值线段树合并

    题目描述 求一张图的严格次小生成树的边权和,保证存在. 输入 第一行包含两个整数N 和M,表示无向图的点数与边数. 接下来 M行,每行 3个数x y z 表示,点 x 和点y之间有一条边,边的权值为z ...

  2. 【bzoj5060】魔方国 乱搞+特判

    题目描述 一张未知的有重边无自环的图,只知道点数为n,边数为m.可以标记若干个点,如果一个点被标记,那么与它距离不超过k的点(包括本身)都会被覆盖. 显然对于每张不同图,让所有点被覆盖的最小代价是不一 ...

  3. 【bzoj1180】[CROATIAN2009]OTOCI LCT

    题目描述 给出n个结点以及每个点初始时对应的权值wi.起始时点与点之间没有连边.有3类操作: 1.bridge A B:询问结点A与结点B是否连通.如果是则输出“no”.否则输出“yes”,并且在结点 ...

  4. Python 类和对象-上

    #类和对象 class Human: #属性 -> 成员属性(变量) ear = 2 mouth = 1 sex = 'man' age = 28 name = 'zhangwang' marr ...

  5. Div+Css制作圆

    Div+Css制作四分之一圆主要是使用Css3.0中的border-radius这个圆角隐藏属性.利用这一属性,我们可以画圆,画半圆,四分之三圆,四分之一圆等.以后我会更新…… 如何使用border- ...

  6. BZOJ3671 [Noi2014]随机数生成器 【贪心】

    题目链接 BZOJ3671 题解 模拟题意生成矩阵贪心从小选择即可 每选择一个,就标记其左下右上矩阵 由于每次都是标记一个到边界的矩阵,所以一旦遇到标记过就直接退出即可,可以保证复杂度 还有就是空间和 ...

  7. 洛谷 P2486 [SDOI2011]染色/bzoj 2243: [SDOI2011]染色 解题报告

    [SDOI2011]染色 题目描述 给定一棵有n个节点的无根树和m个操作,操作有2类: 1.将节点a到节点b路径上所有点都染成颜色c: 2.询问节点a到节点b路径上的颜色段数量(连续相同颜色被认为是同 ...

  8. 无人值守安装linux系统

    需要使用到的服务:PXE + DHCP+TFTP+ Kickstart+ FTP KickStart是一种无人职守安装方式 执行 PXE + KickStart安装需要准备内容:  • DHCP 服务 ...

  9. 如何记录MySQL执行过的SQL语句

    很多时候,我们需要知道 MySQL 执行过哪些 SQL 语句,比如 MySQL 被注入后,需要知道造成什么伤害等等.只要有 SQL 语句的记录,就能知道情况并作出对策.服务器是可以开启 MySQL 的 ...

  10. Spring学习--通过注解配置 Bean (三)

    组件装配: <context:component-sacan> 元素还会自动注册 AutowiredAnnotationBeanPostProcesser 实例 , 该实例可以自动装配具有 ...