Storm官方文档翻译之在生产环境集群中运行Topology

在进群生产环境下运行Topology和在本地模式下运行非常相似。下面是步骤：

1、定义Topology（如果使用Java开发语言，则使用TopologyBuilder来创建）

2、使用StormSubmitter向集群提交Topology。StormSubmitter有三个参数，Topology的名字，Topology的配置，和Topology本身。下面是例子：

Config conf = new Config();

conf.setNumWorkers(20);

conf.setMaxSpoutPending(5000);

StormSubmitter.submitTopology("mytopology", conf, topology);

3、将你的代码和你代码所依赖的jar包打包成一个jar包(Storm的jar包除外，Storm的jar包会被添加到worker节点的classpath路径)

如果你使用maven，插件Maven Assembly Plugin会帮你打包，只需将下面的代码添加到你的pom.xml中：

<plugin>

<artifactId>maven-assembly-plugin</artifactId>

<configuration>

<descriptorRefs>

<descriptorRef>jar-with-dependencies</descriptorRef>

</descriptorRefs>

<archive>

<manifest>

<mainClass>com.path.to.main.Class</mainClass>

</manifest>

</archive>

</configuration>

</plugin>

然后运行mvn assembly:assembly命令来获取有效的jar包。确认你的jar包中没包含Storm的jar包，因为的classpath中已经存在。

4、使用Storm客户端将Topology提交到集群，指定你jar包的路径、名称河所有的参数然后运行：

1	`storm jar path/to/allmycode.jar org.me.MyTopology arg1 arg2 arg3`

storm jar命令会提交jar包给集群并且使用StormSubmitter类和有效地集群对话。在上面的示例中，在提交jar包后storm jar会使用"arg1","arg2"，"arg3"三个参数调用org.me.MyTopology的主方法.

你可以阅读设置Storm开发环境一文来查看如何使用storm客户端来和Storm进群对话。

常用的设置

每个Topology都有很多不同的配置。点击此处查看Topology的所有设置。带“TOPOLOGY”前缀的设置（其他的是集群的设置，不能被覆盖）可以被特定的Topology配置覆盖。下面是一些常用的Topology设置：

1、Config.TOPOLOGY_WORKERS

这个参数设置设置了使用了多少个工作进程去执行Topology。例如，如果你将此参数设置为25，就会有25个Java进程在集群中执行所有任务。如果在Topology中有150个并行执行的组件，那么每个工作进程会以6个线程的方式执行个任务。

2、Config.TOPOLOGY_ACKER_EXECUTORS

这个参数设置当Spout元组被完全处理后，追踪和探测元组树的执行进程的数量。Acker是Storm的一部分，你可以阅读Guaranteeing message processing一文来获取更多关于Acker的信息。如果不设置此参数，或者将此参数设置为空，Storm会将此参数设置为Topology指定的运行工作节点的数量。如果将这个参数设置为0，Storm会在Spout发出元组后立刻返回成功信息，这将影响可靠性。

3、Config.TOPOLOGY_MAX_SPOUT_PENDING

此参数设置了在单一一个Spout任务中一次可以存留的最大元组的数量（没有返回成功或者失败消息的元组）。强烈建议设置此参数防止队列溢出。

4、Config.TOPOLOGY_MESSAGE_TIMEOUT_SECS

这个参数设置了Spout元组被成功处理的最大超时时间。默认是30s，这对大多数的Topology来说已经足够了。阅读Guaranteeing message processing一文了解更多Storm可靠性的知识。

5、Config.TOPOLOGY_SERIALIZATIONS

你可以使用这个参数来注册更多的序列化器，以便在元组中使用自定义类型。

杀死一个Topology

要杀死一个Topology图谱，只需简单的运行：

1	`storm` `kill` `{stormname}`

将提交Topology时设置的名字传给 storm kill。

Storm不会立刻杀死Topology。它会使所有的Spout失效并且确认他们不会再发射任何元组。Storm会在摧毁所有的工作节点之前等待Config.TOPOLOGY_MESSAGE_TIMEOUT_SECS参数所设置的秒数，这给Topology足够的时间来处理完所有的元组。

更新运行中的Topology

要更新运行中的Topology，唯一的操作是杀掉当前的Topology然后重新提交一个新的Topology。一个计划中的特性是实现storm swap命令来用一个新的Topology替换运行中的Topology，保证最小的故障时间同时使所有的旧Topology不再处理元组。

监控Topology

监控Topology的最好方法是使用Storm UI。Storm UI提供了运行任务中遇到的错误，细粒度的吞吐量情况以及每个Topology中的每个组件的表现。你也可以查看集群中工作节点的日志。

Storm官方文档翻译之在生产环境集群中运行Topology的更多相关文章

Storm官方文档翻译之设置开发环境
本文将介绍如何设置Storm的开发环境.下面是大纲: 1.下载Storm发布包,解压,将解压的 bin目录放到你电脑的PATH中. 2.为了能够在远程集群中启动或者停止Topology,请将集群信息放 ...
【转】Twitter Storm: 在生产集群上运行topology
Twitter Storm: 在生产集群上运行topology 发表于 2011 年 10 月 07 日由 xumingming 作者: xumingming | 可以转载, 但必须以超链接形式标明 ...
Neo4j 2.0 生产环境集群搭建
一.在windows上搭建Neo4j ha cluster的配置方法: 例如:建立集群的三台机器的ip分别为:10.230.9.91,10.230.9.92,10.230.9.93. 10.230.9 ...
【K8S学习笔记】Part2：获取K8S集群中运行的所有容器镜像
本文将介绍如何使用kubectl列举K8S集群中运行的Pod内的容器镜像. 注意:本文针对K8S的版本号为v1.9,其他版本可能会有少许不同. 0x00 准备工作需要有一个K8S集群,并且配置好了k ...
企业生产环境集群稳定性-HA就行吗？
在企业生产中,集群一旦运行,是要尽可能的将损失降到最低,现在所有的大数据技术都有HA,spark的.Hadoop的.HBase的等等, HA分冷备和热备,热备是集群自带的,冷备就是硬件的. 这样一种情 ...
hadoop问题锦集(一):mapreduce不能在集群中运行
问题详细: 搭建类hadoop的集群集群环境,查看hadoop dfsadmin -report 也有datanode节点.在master:50070上也有. 然而在eclipse环境上运行mapre ...
win10下将spark的程序提交给远程集群中运行
一,开发环境: 操作系统:win19 64位 IDE:IntelliJ IDEA JDK:1.8 scala:scala-2.10.6 集群:linux上cdh集群,其中spark为1.5.2,had ...
Eclipse中将hadoop项目放在集群中运行
1.加入配置文件到项目源码目录下(src) <configuration> <property> <name>mapreduce.framework.name< ...
Storm集群中执行的各种组件及其并行
一.Storm中执行的组件我们知道,Storm的强大之处就是能够非常easy地在集群中横向拓展它的计算能力,它会把整个运算过程切割成多个独立的tasks在集群中进行并行计算.在Storm中 ...

随机推荐

Jni Tips
1.JavaVM and JNIEnv JNI有两种关键的数据结构,JavaVM和JNIEnv,两者均为指向VM方法JNI方法的列表的的指针(C++版本中它们是Class,Class的所有成员均为函数 ...
python自动化Traceback (most recent call last):报错
今天使用python.然而遇见了Traceback (most recent call last):的报错.抓狂的一笔.有说path写错的,有说是...网上查到的资料也是很少.后来突然发现,页面上我暂 ...
训练[2]-DFS
题目A: 题目B[https://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_pro ...
[Rails] 从 Request 到 Response（2）
本文翻译自:Rails from Request to Response 系列:个人选择了自己感兴趣的部分进行翻译,需要阅读原文的同学请戳前面的链接. 第二部分路由(Routing) Blog::A ...
window.open打开新页面居中
var iHeight = 500;//新打开页面的高 var iWidth = 800;//新打开页面的宽 var iTop = (window.screen.height-30-iHeight)/ ...
javaWEB总结(8):自定义GenericServlet
前言: 项目的实际应用中,我们往往为了方便去继承GenericServlet类,而不是去实现Servlet接口,是什么原因呢?下面进行简单的实践操作. 一. 准备工作 1.首先看GenericServ ...
Solr搜索技术
Solr搜索技术今日大纲回顾上一天的内容: 倒排索引 lucene和solr的关系 lucene api的使用 CRUD 文档.字段.目录对象(类).索引写入器类.索引写入器配置类.IK分词器查 ...
MySQL备份参数详解
mysqldump 是采用SQL级别的备份机制,它将数据表导成 SQL 脚本文件,在不同的 MySQL 版本之间升级时相对比较合适,这也是最常用的备份方法. 1. --compatible = nam ...
写了一下午的dijkstra。突然发现我写的根本不是dijkstra。。。。是没优化过的BFS.......
写了一下午的dijkstra.突然发现我写的根本不是dijkstra....是没优化过的BFS.......
DapperHelper,SqlHelper
using System;using System.Collections.Generic;using System.Data.Common;using System.Linq;using Syste ...

Storm官方文档翻译之在生产环境集群中运行Topology

Storm官方文档翻译之在生产环境集群中运行Topology的更多相关文章

随机推荐

热门专题