zenDiscovery和master选举

上一篇通过 ElectMasterService源码，分析了master选举的原理的大部分内容：master候选节点ID排序保证选举一致性及通过设置最小可见候选节点数目避免brain split。节点排序后选举只能保证局部一致性，如果发生节点接收到了错误的集群状态就会选举出错误的master，因此必须有其它措施来保证选举的一致性。这就是上一篇所提到的第二点：被选举的数量达到一定的数目同时自己也选举自己，这个节点才能成为master。这一点体现在zenDiscovery中，本篇将结合节点的发现过程进一步介绍master选举机制。

节点启动后首先启动join线程，join线程会寻找cluster的master节点，如果集群之前已经启动，并且运行良好，则试图连接集群的master节点，加入集群。否则（集群正在启动）选举master节点，如果自己被选为master，则向集群中其它节点发送一个集群状态更新的task，如果master是其它节点则试图加入该集群。

join的代码如下所示：

private void innerJoinCluster() {

        DiscoveryNode masterNode = null;

        final Thread currentThread = Thread.currentThread();
　　　　　//一直阻塞直到找到master节点，在集群刚刚启动，或者集群master丢失的情况，这种阻塞能够保证集群一致性

        while (masterNode == null && joinThreadControl.joinThreadActive(currentThread)) {

            masterNode = findMaster();

        }

　　　　　　//有可能自己会被选举为master（集群启动，或者加入时正在选举）
　　　　　　if (clusterService.localNode().equals(masterNode)) {
　　　　　　//如果本身是master，则需要向其它所有节点发送集群状态更新

            clusterService.submitStateUpdateTask("zen-disco-join (elected_as_master)", Priority.IMMEDIATE, new ProcessedClusterStateNonMasterUpdateTask() {

                @Override

                public ClusterState execute(ClusterState currentState) {

　　　　　　　　　　　　//选举时错误的，之前的master状态良好，则不更新状态，仍旧使用之前状态。

                    if (currentState.nodes().masterNode() != null) {

                       return currentState;

                    }

                    DiscoveryNodes.Builder builder = new DiscoveryNodes.Builder(currentState.nodes()).masterNodeId(currentState.nodes().localNode().id());

                    // update the fact that we are the master...

                    ClusterBlocks clusterBlocks = ClusterBlocks.builder().blocks(currentState.blocks()).removeGlobalBlock(discoverySettings.getNoMasterBlock()).build();

                    currentState = ClusterState.builder(currentState).nodes(builder).blocks(clusterBlocks).build();

                    // eagerly run reroute to remove dead nodes from routing table

                    RoutingAllocation.Result result = allocationService.reroute(currentState);

                    return ClusterState.builder(currentState).routingResult(result).build();

                }

                @Override

                public void onFailure(String source, Throwable t) {

                    logger.error("unexpected failure during [{}]", t, source);

                    joinThreadControl.markThreadAsDoneAndStartNew(currentThread);

                }

                @Override

                public void clusterStateProcessed(String source, ClusterState oldState, ClusterState newState) {

                    if (newState.nodes().localNodeMaster()) {

                        // we only starts nodesFD if we are master (it may be that we received a cluster state while pinging)

                        joinThreadControl.markThreadAsDone(currentThread);

                        nodesFD.updateNodesAndPing(newState); // start the nodes FD

                    } else {

                        // if we're not a master it means another node published a cluster state while we were pinging

                        // make sure we go through another pinging round and actively join it

                        joinThreadControl.markThreadAsDoneAndStartNew(currentThread);

                    }

                    sendInitialStateEventIfNeeded();

                    long count = clusterJoinsCounter.incrementAndGet();

                    logger.trace("cluster joins counter set to [{}] (elected as master)", count);

                }

            });

        } else {

            // 找到的节点不是我，试图连接该master

            final boolean success = joinElectedMaster(masterNode);

            // finalize join through the cluster state update thread

            final DiscoveryNode finalMasterNode = masterNode;

            clusterService.submitStateUpdateTask("finalize_join (" + masterNode + ")", new ClusterStateNonMasterUpdateTask() {

                @Override

                public ClusterState execute(ClusterState currentState) throws Exception {

                    if (!success) {

                        // failed to join. Try again...

                        joinThreadControl.markThreadAsDoneAndStartNew(currentThread);

                        return currentState;

                    }

                    if (currentState.getNodes().masterNode() == null) {

                        // Post 1.3.0, the master should publish a new cluster state before acking our join request. we now should have

                        // a valid master.

                        logger.debug("no master node is set, despite of join request completing. retrying pings.");

                        joinThreadControl.markThreadAsDoneAndStartNew(currentThread);

                        return currentState;

                    }

                    if (!currentState.getNodes().masterNode().equals(finalMasterNode)) {

                        return joinThreadControl.stopRunningThreadAndRejoin(currentState, "master_switched_while_finalizing_join");

                    }

                    // Note: we do not have to start master fault detection here because it's set at {@link #handleNewClusterStateFromMaster }

                    // when the first cluster state arrives.

                    joinThreadControl.markThreadAsDone(currentThread);

                    return currentState;

                }

                @Override

                public void onFailure(String source, @Nullable Throwable t) {

                    logger.error("unexpected error while trying to finalize cluster join", t);

                    joinThreadControl.markThreadAsDoneAndStartNew(currentThread);

                }

            });

        }

    }

以上就是join的过程。zenDiscovery在启动时会启动一个join线程，这个线程调用了该方法。同时在节点离开，master丢失等情况下也会重启这一线程仍然运行join方法。接下来看一下findMaster这个方法。这个方法体现了master选举的机制。代码如下：

private DiscoveryNode findMaster() {
　　　　　　//ping集群中的节点

        ZenPing.PingResponse[] fullPingResponses = pingService.pingAndWait(pingTimeout);

        if (fullPingResponses == null) {return null;

        }// 过滤所得到的ping响应，虑除client节点，单纯的data节点

        List<ZenPing.PingResponse> pingResponses = Lists.newArrayList();

        for (ZenPing.PingResponse pingResponse : fullPingResponses) {

            DiscoveryNode node = pingResponse.node();

            if (masterElectionFilterClientNodes && (node.clientNode() || (!node.masterNode() && !node.dataNode()))) {

                // filter out the client node, which is a client node, or also one that is not data and not master (effectively, client)

            } else if (masterElectionFilterDataNodes && (!node.masterNode() && node.dataNode())) {

                // filter out data node that is not also master

            } else {

                pingResponses.add(pingResponse);

            }

        }

       final DiscoveryNode localNode = clusterService.localNode();

        List<DiscoveryNode> pingMasters = newArrayList();
　　　　　//获取所有ping响应中的master节点，如果master节点是节点本身则过滤掉。pingMasters列表结果要么为空（本节点是master）要么是同一个节点（出现不同节点则集群出现了问题
不过没关系，后面会进行选举）

        for (ZenPing.PingResponse pingResponse : pingResponses) {

            if (pingResponse.master() != null) {

                if (!localNode.equals(pingResponse.master())) {

                    pingMasters.add(pingResponse.master());

                }

            }

        }

        // nodes discovered during pinging

        Set<DiscoveryNode> activeNodes = Sets.newHashSet();

        // nodes discovered who has previously been part of the cluster and do not ping for the very first time

        Set<DiscoveryNode> joinedOnceActiveNodes = Sets.newHashSet();

　　　　Version minimumPingVersion = localNode.version();
　　　　for (ZenPing.PingResponse pingResponse : pingResponses) {
   　　　　 activeNodes.add(pingResponse.node());
    　　　　minimumPingVersion = Version.smallest(pingResponse.node().version(), minimumPingVersion);
    　　　　if (pingResponse.hasJoinedOnce() != null && pingResponse.hasJoinedOnce()) {
        　　joinedOnceActiveNodes.add(pingResponse.node());
    　　　　}
　　　　}

　　　　　　//本节点暂时是master也要加入候选节点进行选举

        if (localNode.masterNode()) {

            activeNodes.add(localNode);

            long joinsCounter = clusterJoinsCounter.get();

            if (joinsCounter > 0) {

                logger.trace("adding local node to the list of active nodes who has previously joined the cluster (joins counter is [{}})", joinsCounter);

                joinedOnceActiveNodes.add(localNode);

            }

        }
　　　　　　//pingMasters为空，则本节点是master节点，

　　　　if (pingMasters.isEmpty()) {

            if (electMaster.hasEnoughMasterNodes(activeNodes)) {//保证选举数量,说明有足够多的节点选举本节点为master，但是这还不够，本节点还需要再选举一次，如果
　　　　　　　　　　本次选举节点仍旧是自己，那么本节点才能成为master。这里就体现了master选举的第二条原则。

                DiscoveryNode master = electMaster.electMaster(joinedOnceActiveNodes);

                if (master != null) {

                    return master;

                }

                return electMaster.electMaster(activeNodes);

            } else {

                // if we don't have enough master nodes, we bail, because there are not enough master to elect from

                logger.trace("not enough master nodes [{}]", activeNodes);

                return null;

            }

        } else {
　　　　　　　　//pingMasters不为空（pingMasters列表中应该都是同一个节点），本节点没有被选举为master，那就接受之前的选举。

            return electMaster.electMaster(pingMasters);

        }

    }

上面的重点部分都做了标注，就不再分析。除了findMaster方法，还有一个方法也体现了master选举，那就是handleMasterGone。下面是它的部分代码，提交master丢失task部分，

 clusterService.submitStateUpdateTask("zen-disco-master_failed (" + masterNode + ")", Priority.IMMEDIATE, new ProcessedClusterStateNonMasterUpdateTask() {           
 　　　　　　@Override

            public ClusterState execute(ClusterState currentState) {

                //获取到当前集群状态下的所有节点

                DiscoveryNodes discoveryNodes = DiscoveryNodes.builder(currentState.nodes())

                        // make sure the old master node, which has failed, is not part of the nodes we publish

                        .remove(masterNode.id())

                        .masterNodeId(null).build();

　　　　　　　　　　//rejoin过程仍然是重复findMaster过程
　　　　　　　　　　if (rejoin) {

                    return rejoin(ClusterState.builder(currentState).nodes(discoveryNodes).build(), "master left (reason = " + reason + ")");

                }

　　　　　　　　　　//无法达到选举数量，进行findMaster过程

                if (!electMaster.hasEnoughMasterNodes(discoveryNodes)) {

                    return rejoin(ClusterState.builder(currentState).nodes(discoveryNodes).build(), "not enough master nodes after master left (reason = " + reason + ")");

                }
　　　　　　　　　　//在当前集群状态下，如果候选节点数量达到预期数量，那么选举出来的节点一定是同一个节点，因为所有的节点看到的集群states是一致的

                final DiscoveryNode electedMaster = electMaster.electMaster(discoveryNodes); // elect master

                final DiscoveryNode localNode = currentState.nodes().localNode();

              ....

            }

从以上的代码可以看到master选举节点的应用场景，无论是findMaster还是handlemasterGone,他们都保证了选举一致性。那就是所选节点数量必须要达到一定的数量，否则不能认为选举成功，进入等待环境。如果当前节点被其它节点选举为master，仍然要进行选举一次以保证选举的一致性。这样在保证了选举数量同时对候选节点排序从而保证选举的一致性。

发现和加入集群是zenDiscovery的主要功能，当然它还有一些其它功能，如处理节点离开（handleLeaveRequest），处理master发送的最小clustersates（handleNewClusterStateFromMaster）等功能。这里就不一一介绍，有兴趣请参考相关源码。

总结一下：本节结合zenDiscovery，分析了master选举的另外一部分内容。同时zenDiscovery是节点发现集群功能的集合，它主要功能是发现（选举）出集群的master节点，并试图加入集群。同时如果本机是master还会处理节点的离开和节点丢失，如果不是master则会处理来自master的节点状态更新。

zenDiscovery和master选举的更多相关文章

elasticsearch的master选举机制
master作为cluster的灵魂必须要有,还必须要唯一,否则集群就出大问题了.因此master选举在cluster分析中尤为重要.对于这个问题我将分两篇来分析.第一篇也就是本篇,首先会简单说一说m ...
（原）3.1 Zookeeper应用 - Master选举
本文为原创文章,转载请注明出处,谢谢 Master 选举 1.原理服务器争抢创建标志为Master的临时节点服务器监听标志为Master的临时节点,当监测到节点删除事件后展开新的一轮争抢某个服务 ...
zookeeper典型应用场景之一：master选举
对于zookeeper这种东西,仅仅知道怎么安装是远远不够的,至少要对其几个典型的应用场景进行了解,才能比较全面的知道zk究竟能干啥,怎么玩儿,以后的日子里才能知道这货如何能为我所用.于是,有了如下的 ...
使用zookeeper实现分布式master选举（c 接口版本）
zookeeper,已经被很多人所熟知,主要应用场景有(数据订阅/发布 ,负载均衡, 命名服务, 分布式协调/通知,集群管理,Master选举,分布式锁,分布式队列). C接口的描述主要参考 Ha ...
ZooKeeper场景实践：（6）集群监控和Master选举
1. 集群机器监控这通经常使用于那种对集群中机器状态,机器在线率有较高要求的场景,可以高速对集群中机器变化作出响应.这种场景中,往往有一个监控系统,实时检測集群机器是否存活. 利用ZooKeeper ...
Zookeeper实现master选举
使用场景有一个向外提供的服务,服务必须7*24小时提供服务,不能有单点故障.所以采用集群的方式,采用master.slave的结构.一台主机多台备机.主机向外提供服务,备机负责监听主 ...
Zookeeper系列五：Master选举、ZK高级特性：基本模型
一.Master选举 1. master选举原理: 有多个master,每次只能有一个master负责主要的工作,其他的master作为备份,同时对负责工作的master进行监听,一旦负责工作的mas ...
org.apache.curator：master选举和分布式锁
1. master选举(LeaderSelector) 1)LeaderSelector构造函数在leaderPath上建立分布式锁:mutex = new InterProcessMutex(cl ...
zookeeper【4】master选举
考虑7*24小时向外提供服务的系统,不能有单点故障,于是我们使用集群,采用的是Master+Slave.集群中有一台主机和多台备机,由主机向外提供服务,备机监听主机状态,一旦主机宕机,备机必需迅速接 ...

随机推荐

题解 UVA10328 【Coin Toss】
这道题目其实就是说有N张纸牌,问至少连续K张正面朝上的可能性是多少. 可以用递推做.首先我们将题目所求从至少K张转化为总数 - 至多K张 (为什么要这样自己想) 设F[i][j]为前i个纸牌至多 ...
POJ 2241 The Tower of Babylon
The Tower of Babylon Time Limit: 1000ms Memory Limit: 65536KB This problem will be judged on PKU. Or ...
Android设置背景图片平铺
以LinearLayout为例,它提供的background属性将会将背景图片拉伸,相当难看.其实我们仅仅需做少量的改动就能够实现web编程中css背景图片的效果.来试试吧. 创建反复的背景图片在d ...
查看SQLSERVER当前正在运行的sql信息
能够使用SQL Profiler捕捉在SQL Server实例上运行的活动.这种活动被称为Profiler跟踪.这个就不多说了,大家都知道,以下是使用代码为实现同样的效果. SET TRANSACTI ...
ORA-01003: no statement parsed
环境:delphi 5.BDE.oracle10 delphi里面用tStoreProc调用存储过程出现ORA-01003: no statement parsed. 解决方法:tStoreProc. ...
HDFS中的命令行
HDFS中的命令行本文介绍了HDFS以命令行执行的时候.几个经常使用的命令行的作用和怎样使用~ 1. fs fs是启动命令行动作,该命令用于提供一系列子命令. 使用形式为hadoop fs –cmd ...
基于matlab的音频波形实时採集显示 v0.1
robj = audiorecorder(44100,16,1); %设置採样频率.採样位数.通道数 recordblocking(robj,1); %採集初步数据(1s长度) rdata = get ...
Controller接口控制器
1.Controller简介 Controller控制器,是MVC中的部分C,为什么是部分呢?因为此处的控制器主要负责功能处理部分: 1.收集.验证请求参数并绑定到命令对象: 2.将命令对象交给业务对 ...
dubbo+zookeeper+springMVC +maven
pom: <dependency> <groupId>com.github.sgroschupf</grou ...
POJ 1167 The Buses 暴搜+剪枝
思路: 先把能选的路线都预处理出来按照能停的车的多少排个序 (剪枝1) 搜搜搜如果当前剩的车÷当前能停车的多少+deep>=ans剪掉 (剪枝2) //By SiriusRen #inclu ...

zenDiscovery和master选举

zenDiscovery和master选举的更多相关文章

随机推荐

热门专题