1.概述

　　JStorm 是一个类似于 Hadoop 的MapReduce的计算系统，它是由Alibaba开源的实时计算模型，它使用Java重写了原生的Storm模型（Clojure和Java混合编写的），并且再原来的基础上做了许多改进。用户只需按照指定的接口实现一个任务，然后将这个任务提交给JStorm系统，JStorm在接受了任务指令后，会无间断运行任务，一旦出现异常导致某个Worker发送故障，调度器立刻会分配一个新的Worker去顶替异常的Worker。下面是本次分享的目录结构：

应用场景
基本术语
JStorm比较
JStorm架构
总结

　　下面开始今天的内容分享。

2.应用场景

　　从应用的角度来说，JStorm它是一种分布式的应用；从系统层面来说，它又类似于MapReduce这样的调度系统；而从数据方面来说，它又是一种基于流水数据的实时处理解决方案。如今，DT时代的当下，用户和企业也不仅仅只满足于离线数据，对于数据的实时性要求也越来越高了。

　　在早期，Storm和JStorm未问世之前，业界有很多实时计算系统，可谓百家争鸣，自Storm和JStorm出世之后，基本这两者占据主要地位，原因如下：

易开发：接口简单，上手容易，只需要按照Spout，Bolt以及Topology的编程规范即可开发一个扩展性良好的应用，底层的细节我们可以不用去深究其原因。
扩展性：可线性扩展性能。
容错：当Worker异常或挂起，会自动分配新的Worker去工作。
数据精准：其包含Ack机制，规避了数据丢失的风险。使用事物机制，提高数据精度。

　　JStorm处理数据的方式流程是基于流式处理，因此，我们会用它做以下处理：

日志分析：从收集的日志当中，统计出特定的数据结果，并将统计后的结果持久化到外界存储介质中，如：DB。当下，实时统计主流使用JStorm和Storm。
消息转移：将接受的消息进行Filter后，定向的存储到另外的消息中间件中。

3.基本术语

3.1 Stream

　　在JStorm当中，有对Stream的抽象，它是一个不间断的无界的连续Tuple，而JStorm在建模事件流时，把流中的事件抽象未Tuple，流程如下图所示：

3.2 Spout和Bolt

　　在JStorm中，它认为每个Stream都有一个Stream的来源，即Tuple的源头，所以它将这个源头抽象为Spout，而Spout可能是一个消息中间件，如：MQ，Kafka等。并不断的发出消息，也可能是从某个队列中不断读取队列的元数据。

　　在有了Spout后，接下来如何去处理相关内容，以类似的思想，将JStorm的处理过程抽象为Bolt，Bolt可以消费任意数量的输入流，只要将流方向导到该Bolt即可，同时，它也可以发送新的流给其他的Bolt使用，因而，我们只需要开启特定的Spout，将Spout流出的Tuple导向特定的Bolt，然后Bolt对导入的流做处理后再导向其它的Bolt等。

　　那么，通过上述描述，其实，我们可以用一个形象的比喻来理解这个流程。我们可以认为Spout就是一个个的水龙头，并且每个水龙头中的水是不同的，我们想要消费那种水就去开启对应的水龙头，然后使用管道将水龙头中的水导向一个水处理器，即Bolt，水处理器处理完后会再使用管道导向到另外的处理器或者落地到存储介质。流程如下图所示：

3.3 Topology

　　如图所示，这是一个有向无环图，JStorm将这个图抽象为Topology，它是JStorm中最高层次的一个抽象概念，它可以处理代码层面当中直接于JStorm打交道的，可以被提交到JStorm集群执行对应的任务，一个Topology即为一个数据流转换图，图中的每个节点是一个Spout或者Bolt，当Spout或Bolt发送Tuple到流时，它就发送Tuple到每个订阅了该流的Bolt上。

3.4 Tuple

　　JStorm当中将Stream中数据抽象为了Tuple，一个Tuple就是一个Value List，List值的每个Value都有一个Name，并且该Value可以是基本类型，字符类型，字节数组等，当然也可以是其它可序列化的类型。Topology的每个节点都要说明它所发射出的Tuple的字段的Name，其它节点只需要订阅该Name就可以接收处理相应的内容。

3.5 Worker和Task

　　Work和Task在JStorm中的职责是一个执行单元，一个Worker表示一个进程，一个Task表示一个线程，一个Worker可以运行多个Task。而Worker可以通过setNumWorkers(int workers)方法来设置对应的数目，表示这个Topology运行在多个JVM（PS：一个JVM为一个进程，即一个Worker）；另外setSpout(String id, IRichSpout spout, Number parallelism_hint)和setBolt(String id, IRichBolt bolt,Number parallelism_hint)方法中的参数parallelism_hint代表这样一个Spout或Bolt有多少个实例，即对应多少个线程，一个实例对应一个线程。

3.6 Slot

　　在JStorm当中，Slot的类型分为四种，他们分别是：CPU，Memory，Disk，Port；与Storm有所区别（Storm局限于Port）。一个Supervisor可以提供的对象有：CPU Slot、Memory Slot、Disk Slot以及Port Slot。

在JStorm中，一个Worker消耗一个Port Slot，默认一个Task会消耗一个CPU Slot和一个Memory Slot
在Task执行较多的任务时，可以申请更多的CPU Slot
在Task需要更多的内存时，可以申请更多的额Memory Slot
在Task磁盘IO较多时，可以申请Disk Slot

4.JStorm比较

　　当前JStorm已经更新到2.x版本了，较于Storm而言，JStorm在一个Nimbus宕机后，会自动的热切到备份的Nimbus，实现了HA特性。对比与其它的数据产品而言，如下所示：

Flume：一个成熟的产品，目前很多企业的日志收集系统均基于此套件开发，可以将数据收集后做一些计算与分析。
S4：它是一个通用的，可扩展的，分布式的，容错，可插拔的平台，使程序员可以很容易地开发用于处理无界的连续数据流应用。数据准确性较差，数据丢失的风险无法规避，导致其发展不是很迅速，社区活跃度不够高。
AKKA：一个Actor模型，系统模型强大，可以做任何你想做的时，当时很多工作都需要自己亲自动手去实现，如序列化、Topology的生成等。
Spark：基于内存计算的MapReduce模型，偏重于数据批量处理。

5.JStorm架构

　　从设计层面来说，JStorm是一个典型的调度系统。在这个系统中，有以下内容：

角色	作用
Nimbus	调度器
Supervisor	Worker的代理角色，负责Kill掉Worker和运行Worker
Worker	Task的容器
Task	任务的执行者
ZooKeeper	系统的协调者

　　其整体架构图，如下所示：

6.总结

　　本篇博客给大家分享了JStorm的相关内容，其中包含一些基本概念，与Storm的区别，它的架构图等内容，后续会大家介绍如何去部署JStorm的相关内容，以及它的编程方式，API的用法等内容会用一些案例给大家去一一的赘述。

7.结束语

　　这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

JStorm－介绍的更多相关文章

在虚拟机搭建JStrom
原文:http://blog.csdn.net/u014134180/article/details/51810311 一安装步骤二搭建Zookeeper集群 1 ZooKeeper 单机安装与 ...
JStorm中的并行（ parallelismction ）介绍
JStorm中的并行( parallelismction )介绍 JStrom中.一个计算任务通过多台机器使得计算分解为多个独立并行执行在集群内执行的任务(tasks).从而得到水平扩展. JStor ...
JStorm之Nimbus简介
本文导读: ——JStorm之Nimbus简介 .简介 .系统框架与原理 .实现逻辑和代码剖析 )Nimbus启动 )Topology提交 )任务调度 )任务监控 .结束语 .参考文献附:JStor ...
Storm和JStorm(阿里的流处理框架)
本文导读: 1.What——JStorm是什么? 1.1 概述 .2优点 .3应用场景 .4JStorm架构 2.Why——为什么启动JStorm项目?(与storm的区别) .1storm的现状.缺 ...
JStorm第一个程序WordCount详解
一.Strom基本知识(回顾) 1,首先明确Storm各个组件的作用,包括Nimbus,Supervisor,Spout,Bolt,Task,Worker,Tuple nimbus是整个storm任务 ...
jstorm简介（转）
Jstorm是参考storm的实时流式计算框架,在网络IO.线程模型.资源调度.可用性及稳定性上做了持续改进,已被越来越多企业使用作为commiter和user,我还是非常看好它的应用前景,下面是在 ...
流式计算-Jstorm提交Topology过程(上)
Topology是Jstorm对有向无环图的抽象,内部封装了数据来源spout和数据处理单元bolt,以及spout和bolt.bolt和bolt之间的关系.它能够被提交到Jstorm集群. 本文以J ...
Jstorm调度定制化接口(0.9.5 及高版本)
从JStorm 0.9.0 开始, JStorm 提供非常强大的调度功能, 基本上可以满足大部分的需求. 在学习如何使用新调度前, 麻烦先学习 JStorm 0.9.0介绍提供哪些功能接口设置每 ...
StreamCQL编写jstorm拓扑任务入门
一,什么是 StreamCQL StreamCQL(Stream Continuous Query Language)是一个类似SQL的声明式语言, 目的是在流计算平台(目前也就是jstrom)的基础 ...

随机推荐

腾讯云主机的公网无法访问，putty和FileZilla连接不上
1.解决方法一(之前百度都是这种安全组忘了添加) 2.解决方案二(ps:我是用centos的,然后不知道为什么访问不了,端口也是全部开的) service network restart 重置网络命令 ...
stark组件开发之添加按钮显示和URL
添加: 需求: 根据用户的权限, 决定是否,有添加按钮. 通过配置进行定制,预留钩子进行权限的判断. class StartHandler(object): .................... ...
Eclipse设置智能提示
1.解决智能感知提示响应时间,使Eclipse追上VS的响应步伐:Window→Preferences→Java→Editor→Content Assist 这里的Auto activation de ...
时间戳转中国人能看得懂的日期格式 yy-mm-dd
很多项目都会用到时间戳的转换说实话我现在的这家公司超级好因为后太要求传数据的时候竟然可以是时间戳的格式我觉得我好幸福哈哈哈不过等后台转给你数据的时候很多时候都是时间戳这时候就得前端转 ...
FastFDS安装及简单使用
1. FastDFS安装(ubuntu) 需要准备: nginx.fastdfs.libfastcommon.gcc.git apt-get update apt-get -y install mak ...
对于PHP面试知识点的小结
基础篇了解大部分数组处理函数字符串处理函数(区别 mb_ 系列函数) & 引用,结合案例分析 == 与 === 区别 isset 与 empty 区别全部魔术函数理解 static.$t ...
AI制作icon标准参考线与多面板复制
新建10个25x25像素,色值为RGB的画板在视图中打开显示网格打开首选项参考线和网格,间隔和隔线都设为1 新建一个20x20像素前景色为空描边为1像素的正方形选择对齐选项中的对齐画板,使之与画 ...
JavaSE 初学进度条JProgressBar
预备知识创建进度条类后将其直接加入JFrame看看效果 public class JProgressBarDemo2 { public static void main(String args[]) ...
[c#.net]未能加载文件或程序集“”或它的某一个依赖项。系统找不到指定的文件
问题是这样嘀: 项目采用了三层架构和工厂模式,并借鉴了PetShop的架构,因为这个项目也是采用分布式的数据库,目前只有三个数据库,主要出于提高访问性能考虑. 原来是按照网上对PetShop的介绍来给 ...
Hibernate 映射及查询
实体类和实体之间的关系:一对多,多对多数据库设计:e_r 一个实体对象就是一个表格, 如果是1对多的关系,将多方的主键拿到1方做外键. 多对多:重新建立一张新的表格,将双方的主键拿到这里做外键 ...

JStorm－介绍