jstorm简介（转）

Jstorm是参考storm的实时流式计算框架，在网络IO、线程模型、资源调度、可用性及稳定性上做了持续改进，已被越来越多企业使用

作为commiter和user，我还是非常看好它的应用前景，下面是在团队内的分享介绍，更多请参考https://github.com/alibaba/jstorm

一、jstorm是什么

jstorm可以看作是storm的java增强版本，除了内核用纯java实现外，还包括了thrift、python、facet ui。从架构上看，其本质是一个基于zk的分布式调度系统

Jstorm主要应用场景有：

1.信息流处理，如聚合、分析等

2.持续计算，如实时数据统计、监控

3.分布式rpc调用

Jstorm在内核上对storm的改进有：

（1）模型简化

（2）多维度资源调度

（3）网络通信层改造

（4）采样重构

（5）worker/task内部异步化处理

（6）classload、HA

模型简化将storm的三层管理模型简化为两层

jstorm中task直接对应了线程概念，而在storm中是task只是线程executor的一个执行逻辑单元

多维度资源调度 分为cpu、memory、net、disk四个维度，默认情况下：

cpu slots = 机器核数 * 2 -1

memory slots = 机器物理内存 / 1024M

net slots = min(cpu slots, memory slots)

网络通信层 采用了netty + disruptor 替换 zmq + blockingQueue

采样重构

a.定义了滚动时间窗口

b.优化缓存map性能

c.增量采样时间以及减少无谓数据

Worker/Task内部异步化

异步化和回调是流式框架最基本的两大特征，Jstorm在task的计算中将nextTuple和ack/fail的逻辑分离开来，并在worker中采用单独线程负责流入、流出数据的反序列化及序列化工作

有关jstorm实现的几个关键流程，有兴趣的可以参考源码

1.Nimbus的启动

2.supervisor的启动

3. worker内部结构

worker的启动需要完成以下几件事：

a.读取配置文件，启动进程

b.初始化tuple接收队列和发送队列

c.打开端口，启动rpc服务

d.创建context结构，<component, <stream, output_field>>

e.触发各种timer,refresh/reconnection/heartbeat...

task的工作包括：

a.创建内部队列，bind connection

b.反射component拿到taskObj，创建具体的spout/bolt executor

c.反序列化tuple数据，执行处理逻辑

d.做stats，heartbeat等

jstorm在数据的完整性和准确性上分别依赖了acker和事务机制

acker本质是独立的bolt，input是fieldGrouping，output是directGrouping；

每个bolt有两个output stream(ACKER_ACK_STREAM_ID/ACKER_ACK_FAIL_STREAM_ID)

每个spout有一个output stream(ACKER_INIT_STREAM_ID),以及两个input stream(ACKER_ACK_STREAM_ID/ACKER_ACK_FAIL_STREAM_ID)
    Spout
        发送给acker 的value <rootid, xor(target_task_list)>
        发送下一级bolt 的value <rootid, 目标taskid>
    Bolt
         下一级bolt需要ack发送给下一级bolt 为<rootid, 新uuid)>发送给acker的value为<rootid, xor(新uuid, $(接收值))>
         下一级bolt不需要ack发送给下一级bolt 为空发送给acker为<rootid, $(接收值)>

事务：批处理+全局唯一递增id+两阶段提交

在发送tuple的时候带上tid来保证“只有一次”的原语，下游逻辑根据tid是否next tid来判断是否需要处理。为了提高效率，会将多个tuple组装成一批赋予一个tid，并用pipeline方式执行processing和commit阶段，其中processing可以并发执行，而commit具有严格的强顺序性。接口coordinator，commitor中做了状态管理、事务协调、错误检查等工作

另外一个用得最多的高级特性就是trident，它对bolt进行了封装，提供了如joins、aggregations、grouping、filters、function等多种高级数据处理能力

最后，谈谈有关jstorm的运维开发

（1）配置优先级：代码 > jstorm.yaml > default.yaml

（2）stream流对比：

a.fieldsGrouping

b.globalGrouping - target componet的第一个task

c.shuffleGrouping - 自定义random，更平均

d.noneGrouping - 调用random

e.allGrouping - target component所有task

f.directGrouping - 指定目标task

g.customGrouping - 接口customStreamGrouping

（3）jvm调优，优先考虑新生代，开启碎片整理

（4）同一worker内的task，开启定向调度避免网络开销

（5）优雅关闭，reblance或kill前先deactive，等待msg_timeout进行数据清理

（6）其它，hooks、queue-size、topology.max.spout.pending等

http://luoshi0801.iteye.com/blog/2168848

jstorm简介（转）的更多相关文章

jstorm简介
最近在研究jstorm,看了很多资料,所以也想分享出来一些. 安装部署 zeromq 简单快速的传输层框架,安装如下: wget http://download.zeromq.org/zeromq-2 ...
JStorm之Nimbus简介
本文导读: ——JStorm之Nimbus简介 .简介 .系统框架与原理 .实现逻辑和代码剖析 )Nimbus启动 )Topology提交 )任务调度 )任务监控 .结束语 .参考文献附:JStor ...
流式计算-Jstorm提交Topology过程(上)
Topology是Jstorm对有向无环图的抽象,内部封装了数据来源spout和数据处理单元bolt,以及spout和bolt.bolt和bolt之间的关系.它能够被提交到Jstorm集群. 本文以J ...
53.storm简介
一.简介 1.storm是twitter开源的一个分布式的实时计算系统,用于数据实时分析,持续计算,分布式RPC等等. 官网地址:http://storm-project.net 源码地址:https ...
jstorm系列-1：入门
一. Storm整体介绍 Storm 是一个类似Hadoop MapReduce的系统, 用户按照指定的接口实现一个任务,然后将这个任务递交给JStorm系统,Jstorm将这 ...
JStorm学习
一.简介 JStorm是一个分布式实时计算引擎.JStorm是一个类似于Hadoop MapReduce的系统,用户按照指定的接口实现一个任务,然后将这个任务交给JStorm系统,JStorm将这个任 ...
ASP.NET Core 1.1 简介
ASP.NET Core 1.1 于2016年11月16日发布.这个版本包括许多伟大的新功能以及许多错误修复和一般的增强.这个版本包含了多个新的中间件组件.针对Windows的WebListener服 ...
MVVM模式和在WPF中的实现（一）MVVM模式简介
MVVM模式解析和在WPF中的实现(一) MVVM模式简介系列目录: MVVM模式解析和在WPF中的实现(一)MVVM模式简介 MVVM模式解析和在WPF中的实现(二)数据绑定 MVVM模式解析和在 ...
Cassandra简介
在前面的一篇文章<图形数据库Neo4J简介>中,我们介绍了一种非常流行的图形数据库Neo4J的使用方法.而在本文中,我们将对另外一种类型的NoSQL数据库——Cassandra进行简单地介 ...

随机推荐

mysql自动备份（windows）
许多时候,为了数据安全,我们的mysql数据库需要定期进行备份,下面介绍两种在windows下自动备份方法: 1.复制date文件夹备份 ============================ 例子 ...
KVO(键-值观察)
// 1.键-值观察 // 2.它提供一种机制,当指定的对象的属性被修改后,则对象就会接受到通知. // 3.符合KVC(Key-ValuedCoding)机制的对象才可以使用KVO // 4.实现过 ...
Firemonkey使用iOS的第三方静态库（Link Binary With Libraries）
最近需要从内存流中直接播放音频,想到了使用第三方音频播放库bass.在windows上可以很方便的使用相应动态库(具体参考万一的博客),但在iOS上却没有相应的使用介绍,准确的说是没有用于Firemo ...
Oracle Dedicated server 和 Shared server（专用模式和共享模式) 说明（转）
一. 官网说明在DBCA 建库的时候,有提示让我们选择连接类型,这里有两种类型:专用服务器模式和共享服务器模式.默认使用专用模式.如下图: Oracle 官方文档对这两种文档的说明如下: Abou ...
Linux高性能server编程——高级I/O函数
高级I/O函数 pipe函数 pipe函数用于创建一个管道,实现进程间的通信. #include <unistd.h> int pipe(int pipefd[2]); 通过pipe ...
java中排序一个字符串数组
package test_set_map; import java.util.Arrays; import java.util.Collections; public class Test_Colle ...
工具类CTools实现字符编码转换和获取当前路径
class CTools { public: CTools(void); public: ~CTools(void); public: static std::string UNICODE_to_UT ...
【项目分析】利用C#改写JAVA中的Base64.DecodeBase64以及Inflater解码
原文:[项目分析]利用C#改写JAVA中的Base64.DecodeBase64以及Inflater解码最近正在进行项目服务的移植工作,即将JAVA服务的程序移植到DotNet平台中. 在JAVA程 ...
设计模式（五）适配器模式Adapter（结构型）
设计模式(五)适配器模式Adapter(结构型) 1. 概述: 接口的改变,是一个需要程序员们必须(虽然很不情愿)接受和处理的普遍问题.程序提供者们修改他们的代码;系统库被修正;各种程序语言以及相 ...
Login oracle for external authenticate
Generally, we can login the oracle by os authentication, if we login os in a remote machine and make ...

jstorm简介（转）

jstorm简介（转）的更多相关文章

随机推荐

热门专题