storm启动过程之源码分析

TopologyMaster:

处理拓扑的一些基本信息和工作，比如更新心跳信息，拓扑指标信息更新等

NimbusServer:

**
 * 
 * NimbusServer work flow: 1. cleanup interrupted topology delete /storm-local-dir/nimbus/topologyid/stormdis delete /storm-zk-root/storms/topologyid
 * 
 * 2. set /storm-zk-root/storms/topology stats as run
 * 
 * 3. start one thread, every nimbus.monitor.reeq.secs set /storm-zk-root/storms/ all topology as monitor. when the topology's status is monitor, nimubs would
 * reassign workers 4. start one threa, every nimubs.cleanup.inbox.freq.secs cleanup useless jar
 * 
 * @author version 1: Nathan Marz version 2: Lixin/Chenjun version 3: Longda
 * 
 */

Nimbus在启动时先去读取配置文件，然后初始化follower线程，每个follower分别到zk注册，在Znode下创建临时节点记录已启动的时间，另外一个节点在初始化线程时，先后调用两个方法：（FollowerRunnable.java）

data.getStormClusterState().update_nimbus_slave(hostPort, data.uptime());
data.getStormClusterState().update_nimbus_detail(hostPort, null);

然后Nimbus会判断集群是否已经存在leader，如果不存在则经历一次选举过程，如果有，则去检查leader的配置并同步，过程可以参照笔记stormNimbus集群

在启动nimbus前初始化，初始化（NimbusServer.init（））

1、清理一些中断了的topology(nimbus目录下/storm.local.dir/stormdist下存在，zk中storms/topologyid中不存在的topology): 删除ZK上相关信息(清理tasks/topologyid; storms/topologyid; assignments/topologyid这个三个目录)。

2、初始化任务分派会启动一个后台线程：TopologyAssign，下面分析一下这个后台线程怎样分配任务的：（doTopologyAssignment）

1、创建一个任务调度器（DefaultTopologyScheduler）

2、创建任务，将配置和topology的信息初始化TopologyAssignEvent，用默认的任务调度器指派任务（DefaultTopologyScheduler.assignTasks）

3、通过初始化过的TopologyAssignEvent初始化上下文（TopologyAssignContext context = prepareTopologyAssign(event)

4、在prepareTopologyAssign方法中，获取当前所有在运行的supervisor ＊＊＊＊＊！！！！！非常重要的方法，深入研究

4、指派任务时，先根据任务分派类型（Rebalance/new/monitor）判断需要处理的task：（TopologyAssign）

如果是new类型，则将context中缓存的所有task都加入任务列表；

如果是rebalance，将所有不在运行的task加入任务列表

如果是monitor，将所有死掉task加入任务列表

5、任务列表初始化成功后，获取topology节点的配置信息，然后在zk上创建节点，存放superVisor和对应host信息，worker信息等

因为所有的指令通过thrift的回调都通过ServiceHandler,当调用submitTopology时，会真正调用到submitTopologyWithOpts，代码逻辑基于thrift的框架开发

thread.setName("TopologyAssign");
thread.setDaemon(true);
thread.start();

分析一下submitTopologyWithOpts的执行过程和逻辑：

如果在pendingSubmitTopologys的队列中有同名的topology，则抛异常

// create /local-dir/nimbus/topologyId/xxxx files
setupStormCode(conf, topologyId, uploadedJarLocation, stormConf, normalizedTopology);

// generate TaskInfo for every bolt or spout in ZK
// /ZK/tasks/topoologyId/xxx
setupZkTaskInfo(conf, topologyId, stormClusterState);

// make assignments for a topology
LOG.info("Submit for " + topologyName + " with conf " + serializedConf);
makeAssignment(topologyName, topologyId, options.get_initial_status());

// when make assignment for a topology,so remove the topologyid form
// pendingSubmitTopologys
data.getPendingSubmitTopologys().remove(topologyId);

// push start event after startup
StartTopologyEvent startEvent = new StartTopologyEvent();

this.data.getMetricRunnable().pushEvent(startEvent);

notifyTopologyActionListener(topologyName, "submitTopology");

将startEvent添加到队列之后，触发submitTopology的action.

private void init(Map conf) throws Exception {

    NimbusUtils.cleanupCorruptTopologies(data);

    initTopologyAssign();

    initTopologyStatus();

    initCleaner(conf);

    serviceHandler = new ServiceHandler(data);

    if (!data.isLocalMode()) {

       //data.startMetricThreads();

        initMonitor(conf);

        initThrift(conf);

    }
}

Supervisor:

* Supevisor workflow 1. write SupervisorInfo to ZK
*
* 2. Every 10 seconds run SynchronizeSupervisor 2.1 download new topology 2.2 release useless worker 2.3 assgin new task to /local-dir/supervisor/localstate
* 2.4 add one syncProcesses event
*
* 3. Every supervisor.monitor.frequency.secs run SyncProcesses 3.1 kill useless worker 3.2 start new worker
*
* 4. create heartbeat thread every supervisor.heartbeat.frequency.secs, write SupervisorInfo to ZK

1、supervisor清空临时目录和文件等，然后创建心跳对象，将supervisor_id，ip，端口等更新到心跳对象，然后调用update方法在zookeep上创建临时节点，用以保存supervisor的信息，在zk上注册完成后，创建supervisor的同步线程，同步线程中创建worker

supervisor启动worker过程：

主要类： SyncProcessEvent

public void run(Map<Integer, LocalAssignment> localAssignments, Set<String> downloadFailedTopologyIds) {
    LOG.debug("Syncing processes, interval seconds:" + TimeUtils.time_delta(lastTime));
    lastTime = TimeUtils.current_time_secs();
    try {

        /**
         * Step 1: get assigned tasks from localstat Map<port(type Integer), LocalAssignment>
         */
        if (localAssignments == null) {
            localAssignments = new HashMap<>();
        }
        LOG.debug("Assigned tasks: " + localAssignments);

        /**
         * Step 2: get local WorkerStats from local_dir/worker/ids/heartbeat Map<workerid [WorkerHeartbeat, state]>
         */
        Map<String, StateHeartbeat> localWorkerStats;
        try {
            localWorkerStats = getLocalWorkerStats(conf, localState, localAssignments);
        } catch (Exception e) {
            LOG.error("Failed to get Local worker stats");
            throw e;
        }
        LOG.debug("Allocated: " + localWorkerStats);

        /**
         * Step 3: kill Invalid Workers and remove killed worker from localWorkerStats
         */
        Map<String, Integer> taskCleaupTimeoutMap;
        Set<Integer> keepPorts = null;
        try {
            taskCleaupTimeoutMap = (Map<String, Integer>) localState.get(Common.LS_TASK_CLEANUP_TIMEOUT);
            keepPorts = killUselessWorkers(localWorkerStats, localAssignments, taskCleaupTimeoutMap);
            localState.put(Common.LS_TASK_CLEANUP_TIMEOUT, taskCleaupTimeoutMap);
        } catch (IOException e) {
            LOG.error("Failed to kill workers", e);
        }

        // check new workers
        checkNewWorkers(conf);

        // check which topology need update
        checkNeedUpdateTopologys(localWorkerStats, localAssignments);

        // start new workers
        startNewWorkers(keepPorts, localAssignments, downloadFailedTopologyIds);

    } catch (Exception e) {
        LOG.error("Failed Sync Process", e);
        // throw e
    }

}

TopologySubmitter:

storm启动过程之源码分析的更多相关文章

Flink的Job启动TaskManager端(源码分析)
前面说到了 Flink的JobManager启动(源码分析) 启动了TaskManager 然后 Flink的Job启动JobManager端(源码分析) 说到JobManager会将转化得到 ...
Android Activity Deeplink启动来源获取源码分析
一.前言目前有很多的业务模块提供了Deeplink服务,Deeplink简单来说就是对外部应用提供入口. 针对不同的跳入类型,app可能会选择提供不一致的服务,这个时候就需要对外部跳入的应用进行区分 ...
sentinel流量控制和熔断降级执行流程之源码分析
前言: sentinel是阿里针对服务流量控制.熔断降级的框架,如何使用官方都有很详细的文档,下载它的源码包里面对各大主流框都做了适配按理,本系列文章目的主要通过源码分析sentinel流量控制和 ...
spring mvc 启动过程及源码分析
由于公司开源框架选用的spring+spring mvc + mybatis.使用这些框架,网上都有现成的案例:需要那些配置文件.每种类型的配置文件的节点该如何书写等等.如果只是需要项目能够跑起来,只 ...
Flink的Job启动JobManager端(源码分析)
通过前面的文章了解到 Driver将用户代码转换成streamGraph再转换成Jobgraph后向Jobmanager端提交 JobManager启动以后会在Dispatcher.java起来RPC ...
Netty服务端启动过程相关源码分析
1.Netty 是怎么创建服务端Channel的呢? 我们在使用ServerBootstrap.bind(端口)方法时,最终调用其父类AbstractBootstrap中的doBind方法,相关源码如 ...
ASP.Net Core MVC6 RC2 启动过程分析[偏源码分析]
入口程序如果做过Web之外开发的人,应该记得这个是标准的Console或者Winform的入口.为什么会这样呢? .NET Web Development and Tools Blog ASP.NE ...
Flink的Job启动Driver端(源码分析)
整个Flink的Job启动是通过在Driver端通过用户的Envirement的execute()方法将用户的算子转化成StreamGraph,然后得到JobGraph通过远程RPC将这个JobGra ...
supervisor启动worker源码分析-worker.clj
supervisor通过调用sync-processes函数来启动worker,关于sync-processes函数的详细分析请参见"storm启动supervisor源码分析-superv ...

随机推荐

微信小程序-画布组件
canvas 画布. 注: canvas 标签默认宽度300px.高度225px 同一页面中的 canvas-id 不可重复,如果使用一个已经出现过的 canvas-id,该 canvas 标签对应的 ...
VIM常用设置
批量替换: #:%s/source_pattern/target_pattern/g "My Custom Configuration filetype plugin indent on ...
iOS runtime 初步学习
注: 在Xocde5之后, 使用运行时方法需要进行2步设置1. 在Build Setting中搜索'msg', 设置'Strict Checking' 为 NO2. 使用需要导入头文件 #import ...
strcpy strlen memcpy等的函数实现
#include <assert.h> #include <string.h> #include <stdlib.h> #include <stdio.h&g ...
Java链接MySQL练习题：格式化日期、性别；避免代码注入
一.查询人员名单,按序号姓名性格(男或女) 民族(某族) 生日(年月日)输出 import java.sql.*; import java.text.SimpleDateFormat; publi ...
Android TabHost使用
TabHost是Android中自带的选项卡控件,效果图如下: 主布局文件 <RelativeLayout xmlns:android="http://schemas.android. ...
ROWID伪列
ROWID伪列概念: 在数据表中每一行所保存的记录,oracle会为每条记录分配一个唯一的地址编号,这个编号就是通过ROWID表示的. 所有的数据都利用ROWID进行定位. 观察rowid的存在 SQ ...
transient的使用
我们都知道一个对象只要实现了Serilizable接口,这个对象就可以被序列化,java的这种序列化模式为开发者提供了很多便利,我们可以不必关系具体序列化的过程,只要这个类实现了Serilizable ...
如何选择 compileSdkVersion, minSdkVersion 和 targetSdkVersion
对这几个概念模模糊糊,看到一篇文章就记录下来. 当你发布一个应用之后,(取决于具体的发布时间)可能没过几个月 Android 系统就发布了一个新版本.这对你的应用意味着什么,所有东西都不能用了?别担心 ...
ZOJ 2048 highways
题目比我想象地要容易很多..一开始想得太复杂了,本来想试一下kruskal算法的,嫌麻烦..还是用了之前1203的prim算法...以为要注意这道题的输出顺序,结果不用,直接输出就可以了,就是注意一 ...

storm启动过程之源码分析

storm启动过程之源码分析的更多相关文章

随机推荐

热门专题