cassandra中对节点失败与否的探测方法, the Phi accrual Failure Dector,附论文
(1)在分布式系统中,对于某个节点是否还“活着”的探测,通常是设定一个时间的阀值,然后根据接收到的“心跳”信息的间隔,来判定这个节点是否还活着,然后返回一个bool值;
但这种做法很容易造成误判:因为你不能确切得知道 究竟是真的是节点挂掉了,还是网络比较“慢”;
(2)cassandra里面采用一种可以自适应自调整的故障探测的方法,主要实现原理是:
用一个滑动窗口记录下 接收到的 一个节点的心跳信息的时间间隔,在cassandra中,窗口的size设置为1000;然后根据窗口中的数据来生成指数分布,从而估计下一次心跳在当前时刻应该到来的概率;
虽然 原论文中建议这些时间间隔服从 高斯分布,但指数分布是一个更好的选择:关于 指数分布 与 泊松分布(http://www.ruanyifeng.com/blog/2015/06/poisson-distribution.html,这里有阮一峰的一篇博文写的挺清楚的);
指数分布表示的就是时间发生的间隔的概率,公式如下:
P(x <= t) = 1 - e^-Lt ,其中L表示事件发生的频率;其极大似然估计就是 1/mean(平均数)
(3)那么cassandra中的具体做法是怎样的?
我门假设 P_later 表示 endpoint B 挂掉的概率,t参数表示自从上一次收到B的heartbeat信息以来,时间已经过去了多久;那么
P_later(t) = 1 - F(t)
其中,F(t)是时间间隔事件发生的累计分布函数,很容易理解,F(t)表示上次事件(接收到endpoint B的heartbeat消息)开始到t时间之间应该接到endpoint B的heartbeat消息的概率,那么没有接收到就用1减去;因为没有接收到我们可能就认为B挂掉了;
带入指数分布的公式,所以就有:
P_later(t) = 1 - (1 - e^(-Lt))
其中L的极大似然估计是1/均值,就是滑动窗口中记录的所有时间间隔的均值;
P_later(t) = 1 - (1 - e^(-t/mean))
原论文到这里就截止了,cassandra接着的做法如下:
P_later(t) = e^(-t/mean)
然后 phi的计算
phi(t) = -log10(P_later(t))
接着化简
phi(t) = -log10(e^(-t/mean))
phi(t) = -log(e^(-t/mean)) / log(10)
phi(t) = (t/mean) / log(10)
将log(10)带进来,约等于
phi(t) = 0.4342945 * t/mean
这确实要比计算如下的方式简单多了:
(-1) * MATH.log10Math
.pow(Math.e, ((-1) * (t)/mean)))
cassandra中认为 phi(t) 大于 8时,就认为节点挂掉了。
对于选择phi 等于 8这个值,我们反过来计算一下概率,如果phi(t) 为 8,那么P_later(t)需要为10^-8,说明这个情况是一个很小概率的情况,这样而来,误判的概率就很小了。
参考论文:
http://files.cnblogs.com/files/yuhan-TB/ThePhiAccrualFailureDetector.pdf
cassandra中对节点失败与否的探测方法, the Phi accrual Failure Dector,附论文的更多相关文章
- 【Gradle】配置中引用的jar包版本后面自动加冒号导致引入jar包失败的问题/gradle中引用jar包版本不一致的问题/gradle中引用jar失败的问题 解决方法
idea中 gradle中 引用jar包,版本后面默认加:的问题 gradle中引用jar包版本不一致的问题 gradle中引用jar失败的问题 如上题目所示,三个问题其实都是同一样的简单又恶心,因为 ...
- XML中文本节点存储任意字符的方法
XML xml是一种可扩展标签语言, 为众多浏览器支持解析, ajax更是利用xml来完成服务器和客户端之前的通信. xml基本元素为 <label>xxx</label>, ...
- hanlp在Python环境中的安装失败后的解决方法
Hanlp是由一系列模型与算法组成的javag工具包,目标是普及自然语言处理再生环境中的应用.有很多人在安装hanlp的时候会遇到安装失败的情况,下面就是某大神的分享的在python环境中安装失败的解 ...
- Web.config中appSettings节点值两种读取方法
<appSettings> <add key="ClientPort" value="5252"/> <add ...
- Cassandra中的数据一致性
Cassandra中数据一致性指的是数据行在各个复制节点(replicas)上的更新和同步程度.通过提供tunable consistency,Cassandra扩展了eventual cons ...
- Cassandra 备份 - 1 - 节点镜像恢复
之前比较关注如何使用Cassandra,但是真正想大规模使用前提还是需要搞清楚备份机制,确保数据安全. 本文主要内容来自文档 "Cassandra2.2"的翻译.最后部分为真实操作 ...
- cassandra中的ACID,与RDBMS中的事务有何不同?
Cassandra中的ACID标准 Apache Cassandra不遵循具有回滚或锁定机制的ACID(原子性,一致性,隔离性,持久性)事务,而是提供原子,隔离和持久的事务,并具有最终和可调的一致性, ...
- web.config中sessionState节点的配置方案
web.config中sessionState节点的配置方案 web.config关于sessionState节点的配置方案,sessionState有五种模式:Custom,off,inProc,S ...
- Cassandra配置多节点集群以及使用雅虎YCSB压测Cassandra 3.11
这几天在搭Cassandra集群以及对Cassandra的性能测试,步骤还挺多,记录一下. 关于Caaandra在服务器上配置多节点集群,可以参考一下文章: http://blog.csdn.net/ ...
随机推荐
- Python—进程、线程、协程
一.线程 线程是操作系统能够进行运算调度的最小单位.它被包含在进程之中,是进程中的实际运作单位.一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务 方法: ...
- winform在不同电脑分辨率
private void InitializeComponent() { //设定按字体来缩放控件 this.AutoScaleMode = System.Windows.Forms.AutoScal ...
- 我的android学习经历32
android系统架构 1.Linux内核层(LINUX KERNEL) 这是系统架构的最低层,这层为android设备的硬件提供了驱动 2.系统运行库层(LIBRARIES) 这一层为倒数第二层,利 ...
- 深入浅出设计模式——中介者模式(Mediator Pattern)
模式动机 在用户与用户直接聊天的设计方案中,用户对象之间存在很强的关联性,将导致系统出现如下问题: 系统结构复杂:对象之间存在大量的相互关联和调用,若有一个对象发生变化,则需要跟踪和该对象关联的其他 ...
- [bzoj2124]等差子序列(hash+树状数组)
我又来更博啦 2124: 等差子序列 Time Limit: 3 Sec Memory Limit: 259 MBSubmit: 941 Solved: 348[Submit][Statu ...
- iOS - Git 代码版本管理
1.Git Git 是用 C 语言开发的分布版本控制系统.版本控制系统可以保留一个文件集合的历史记录,并能回滚文件集合到另一个状态(历史记录状态).另一个状态可以是不同的文件,也可以是不同的文件内容. ...
- 安装numpy+mkl
引子: 运行from sklearn.dataset import load_iris 时提示: Traceback (most recent call last): File "F:/gi ...
- JQuery_高级选择器
在很多特殊的元素上,比如父子关系的元素,兄弟关系的元素,特殊属性的元素等等. 在早期 CSS 的使用上,由于 IE6 等低版本浏览器不支持,所以这些高级选择器的使用也不具备普遍性,但随着 jQuery ...
- iOS开发 Masonry的简单使用
首先,在正式使用Masonry之前,我们先来看看在xib中我们是如何使用AutoLayout 从图中我们可以看出,只要设置相应得局限,控制好父视图与子视图之间的关系就应该很ok的拖出你需要的需 ...
- Spark排错与优化
一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是master会读取每个task的event log日志去生成 ...