Storm概念学习系列之Tuple元组（数据载体）

　　不多说，直接上干货！

Tuple元组

　　Tuple 是 Storm 的主要数据结构，并且是 Storm 中使用的最基本单元、数据模型和元组。

Tuple 描述

　　Tuple 就是一个值列表， Tuple 中的值可以是任何类型的，动态类型的Tuple的fields可以不用声明；默认情况下，Storm中的Tuple支持私有类型、字符串、字节数组等作为它的字段值，如果使用其他类型，就需要序列化该类型。

　　Tuple的字段默认类型有： integer、 float、 double、 long、short、 string、 byte、 binary（byte[]）。

　　Tuple元组，是消息传递的基本单元，是一个命名的值列表，元组中的字段可以是任何类型的对象。Storm使用元组作为其数据模型，元组支持所有的基本类型、字符串和字节数组作为字段值，只要实现类型的序列化接口就可以使用该类型的对象。

　　元组本来应该是一个key-value的Map，但是由于各个组件间传递的元组的字段名称已经事先定义好，所以只要按序把元组填入各个value即可，所以元组是一个vlue的List。

　　Tuple是Storm采用的数据表示模型，所有的数据都以Tuple的形式在各个组件之间流动。Tuple是一组字段列表，每个字段由一个字段名和字段值组成，每个Tuple类似于数据库中的一行记录。在默认的情况下，Tuple的字段类型可以是integer、long、short、byte、string、double、float、boolean和byte array。当然，你也可以通过实现序列化器自定义类型。

　　Tuple 数据结构如图 1 所示。

　　　　　　　　　　　　　　　　　　　　　　　　　　图 1 Tuple 数据结构

　　Tuple 可以理解成键值对。例如，创建一个Bolt 要发送两个字段（命名为 double 和 triple），其中键就是定义在declareOutputFields 方法中的 Fields 对象，值就是在 emit 方法中发送的 Values 对象。

　　以下是一个简单例子

public class DoubleAndTripleBolt extends BaseRichBolt {

OutputCollectorBase _collector;

@Override

public void prepare(Map conf, TopologyContext context, OutputCollectorBase collector) {

_collector = collector;

}

@Override

public void execute(Tuple input) {

int val = input.getInteger();

_collector.emit(input, new Values(val*, val*));

_collector.ack(input);

}

@Override

public void declareOutputFields(OutputFieldsDeclarer declarer) {

declarer.declare(new Fields("double", "triple"));

}}

　　此外，在使用的 Storm Java 包中， backtype.storm.tuple 主要有以下几个类：

Fileds.class

MessageId.class

Tuple.class

TupleImpl.class

Values.class

　　列出以上内容是为了更好地理解 Tuple，这样能够从本质上理解 Tuple，在使用时更加得心应手。

Tuple 的生命周期

　　了解一个 Tuple 的生命周期就需要查看源码，如下的 Java 代码展示了 Spout（消息源）接口发出 Tuple（消息）的整个过程。

public interface ISpout extends Serializable {

void open(Map conf, TopologyContext context, SpoutOutputCollector collector);

void nextTuple();

void ack(Object msgId);

void fail(Object msgId);

void close();

}

　　首先， Storm 调用 Spout（消息源）的nextTuple 方法来获取下一个Tuple， Spout通过Open 方法的参数提供的SpoutOutputCollector将新Tuple发射到其中一个输出消息流。

　　　　注意：发射Tuple 时， Spout提供一个message-id，通过这个ID 来追踪该Tuple。

　　接下来， Storm跟踪该Tuple的树形结构是否成功创建，并根据 messageid调用Spout中的ack函数，以确认Tuple是否被完全处理。如果Tuple超时，则调用 Spout 的 fail 方法。

　　由此看出，同一个Tuple不管是acked，还是failed都是由创建它的Spout发出并维护的，所以，即使Spout 在集群环境中同时执行很多的任务，该Tuple 也不会被其他任务调用或生成 acked或 failed 状态。总之， Storm会利用内部的 Acker 机制保证每个Tuple 被可靠地处理。最后，在任务完成后，Spout调用Close方法结束 Tuple 的使命。

　　比如

Storm概念学习系列之Tuple元组（数据载体）的更多相关文章

Storm概念学习系列之核心概念（Tuple、Spout、Blot、Stream、Stream Grouping、Worker、Task、Executor、Topology）（博主推荐）
不多说,直接上干货! 以下都是非常重要的storm概念知识. (Tuple元组数据载体 .Spout数据源.Blot消息处理者.Stream消息流和 Stream Grouping 消息流组.Wor ...
Storm概念学习系列之storm流程图
把stream当做一列火车, tuple当做车厢,spout当做始发站,bolt当做是中间站点!!! 见 Storm概念学习系列之Spout数据源 Storm概念学习系列之Topology拓扑 Sto ...
Storm概念学习系列之Worker、Task、Executor三者之间的关系
不多说,直接上干货! Worker.Task.Executor三者之间的关系 Storm集群中的一个物理节点启动一个或者多个Worker进程,集群的Topology都是通过这些Worker进程运行的. ...
Storm概念学习系列之storm的雪崩
不多说,直接上干货! Storm的雪崩问题的解决办法1: Storm概念学习系列之并行度与如何提高storm的并行度 Storm的雪崩问题的解决办法2:
Storm概念学习系列之Topology拓扑
不多说,直接上干货! Hadoop 上运行的是 MapReduce 作业,而在 Storm 上运行的是拓扑 Topology,这两者之间是非常不同的.一个关键的区别是:一个MapReduce 作业 ...
Storm概念学习系列之数据流模型、Storm数据流模型
不多说,直接上干货! 数据流模型数据流模型是由数据流.数据处理任务.数据节点.数据处理任务实例等构成的一种数据模型.本节将介绍的数据流模型如图1所示. 分布式流处理系统由多个数据处理节点(node) ...
Storm概念学习系列之Blot消息处理者
不多说,直接上干货! Bolt消息处理者认识了消息源Spout和消息的数据存储元组Tuple,接下来了解消息的处理者Bolt.Bolt是接收Spout发出元组Tuple后处理数据的组件,所有的消息处 ...
Storm概念学习系列之Spout数据源
不多说,直接上干货! Spout 数据源消息源Spout是Storm的Topology中的消息生产者(即Tuple的创造者). Spout 介绍 1. Spout 的结构 Spout 是 Storm ...
Storm概念学习系列之storm的功能和三大应用
不多说,直接上干货! storm的功能 Storm 有许多应用领域:实时分析.在线机器学习.持续计算.分布式 RPC(远过程调用协议,一种通过网络从远程计算机程序上请求服务). ETL(Extract ...

随机推荐

Python-Redis的List操作
Redis列表是简单的字符串列表,一个列表可以包含超过40亿个元素 lpush(name,values):在name对应的list中添加元素,每个新的元素都添加到列表的最左边 rpush(name, ...
问题：OAuth2.0；结果：帮你深入理解OAuth2.0协议
1. 引言如果你开车去酒店赴宴,你经常会苦于找不到停车位而耽误很多时间.是否有好办法可以避免这个问题呢?有的,听说有一些豪车的车主就不担心这个问题. 豪车一般配备两种钥匙:主钥匙和泊车钥匙.当你到酒 ...
8.ireport 取消自动分页，detail不分页
转自:http://www.blogjava.net/vjame/archive/2013/10/12/404908.html 报表文件属性页面 lgnore pagination 勾选上,就可以取消 ...
linux日常管理-rsync_ssh方式
现在我们有两台机器,两台机器都需要安装rsync yum -y install rsync 一台的主机名是wangshaojun IP是192.168.1.117 ,另一台的主机名是 ...
neon eclipse tomcat发布项目乱码
解决方法如图
3.Windows应急响应：蠕虫病毒
0x00 前言蠕虫病毒是一种十分古老的计算机病毒,它是一种自包含的程序(或是一套程序),通常通过网络途径传播, 每入侵到一台新的计算机,它就在这台计算机上复制自己,并自动执行它自身的程序.常见的蠕虫 ...
UVaLive 5031 Graph and Queries (Treap)
题意:初始时给出一个图,每个点有一个权值,三种操作:(1)删除某个边:(2)修改每个点的权值:(3)询问与节点x在一个连通分量中所有点的第K大的权值. 析:首先是要先离线,然后再倒着做,第一个操作就成 ...
redis系列：通过共同好友案例学习set命令
前言这一篇文章将讲述Redis中的set类型命令,同样也是通过demo来讲述,其他部分这里就不在赘述了. 项目Github地址:https://github.com/rainbowda/learnW ...
ICP备案接入商
1. 什么是ICP备案中的接入商 ICP备案系统中所说的接入商:是指为您提供虚拟主机.服务器托管或者专线接入的公司. 现在ICP备案的原则是“谁接入谁负责”,接入商一般都有自己的电子平台和工信部对接, ...
Android进阶书籍推荐
版权声明:本文为xing_star原创文章,转载请注明出处! 本文同步自http://javaexception.com/archives/124 Android进阶书籍推荐端午节前我写了drake ...

Storm概念学习系列之Tuple元组（数据载体）

Storm概念学习系列之Tuple元组（数据载体）的更多相关文章

随机推荐

热门专题