【Samza系列】实时计算Samza中文教程（一）背景

大家应该听我在前言篇里扯皮后，迫不及待要来一看Samza到底是何物了吧？先了解一下Samza的Background是不可缺少的（至少官网上是放在第一个的），我们须要从哪些技术背景去了解呢？

什么是消息（Messaging）？

消息系统是一种实现近实时异步计算的流行方案。

消息产生时能够被放入一个消息队列（ActiveMQ，RabbitMQ）、公布-订阅系统（Kestrel，Kafka）或者日志聚合系统（Flume、Scribe）。下游消费者从上述系统读取消息而且处理它们或者基于消息的内容产生进一步的动作。

如果你有一个站点，而且每次有人要载入一个页面，你发送一个“用户看了页面”的事件给一个消息系统。你可能会有一些做以下事情的消费者：

* 为了未来做数据分析，存储消息到hadoop。

* 对页面訪问量进行计数而且更新到Dashboard

* 假设页面訪问失败触发一个报警。

* 发送一封邮件通知还有一个用户；

* 带着这个用户的相关信息增加页面展示事件，而且返回信息给消息系统；

总结一下。非常显然。一个消息系统能解耦全部这些来自实际网页服务的工作。

那什么是流式计算（处理）？

大家知道消息系统是一个相当低层次的基础设施（被歧视了--）——它存储消息等待消费者消费他们。当你開始写产生或者消费消息的代码时，你非常快会发如今处理层会有非常多恶心的问题须要你亲自处理。而Samza的目标就是帮助我们干掉这些恶心的家伙。

咱们那上面提到的（计算pv并更新到dashboard）样例来说吧。当你的正在跑的消费者机器突然挂掉了，而且你当前的计算的数值丢失了会发生什么？怎么恢复？当机器服务被重新启动时处理该从哪里開始？假设底层的消息系统反复发送了一条信息或者丢失了一条消息怎么办？或者你想依据url来分组统计pv？又或者一台机器处理的负载太大。你想分流到多台机器上进行统计在聚合？

流式计算为上述问题提供了一个非常好的解决方式，它是基于消息系统更高层次的抽象。

Samza

Samza是一个流式计算框架，它有下面特性：

* 简单的API：和绝大多数低层次消息系统API不同，相比MapReduce，Samza提供了一个很easy的“基于回调（callback-based）”的消息处理API；

*管理状态：samza管理快照和流处理器的状态恢复。当处理器重新启动，samza恢复其状态一致的快照。

samza的建立是为了处理大量的状态。

* 容错性：当集群中有一台机器宕机了。基于Yarn管理的Samza会马上将你的任务导向还有一台机器。

* 持久性：Samza通过kafka保证消息按顺序写入相应分区。而且不会丢失消息；

* 扩展性：Samza在每一层都做了分区和分布。kafka提供了顺序的、分区、可复制的、容错的流。Yarn则为Samza的执行提供了一个分布式环境。

*可插拔：尽管Samza在Kafka和YARN的外部工作，可是Samza提供了能够让你在其他消息系统和执行环境里执行的可插拔的API；

*处理器隔离：执行在YARN上的Samza相同支持Hadoop安全模型以及通过linux CGroups进行资源隔离

供选方案：

眼下流行的开源流式计算方案都非常年轻。而且没有一个单一系统能提供一个全面的解决方式。

在这个领域面临的新难题包含例如以下几个：1.一个流式计算的状态应该如何管理；2.流是否应该被缓冲到远程机器的磁盘上；3.当反复的信息被接受或者信息丢失该做什么；4.如何建立底层消息传递系统；

Samza的主要差别在于下面几个方面：

* Samza支持局部状态的容错。

状态自己作为一个流被构造。

假设由于机器宕机本地状态丢失，那么状态流会回放又一次存储它。

* 流是有序、分区的、可回放的而且是容错的。

* YARN用来处理隔离、安全和容错；

* 任务之间是解耦的：假设有一个任务慢了而且造成了消息的积压，系统其他部分不会受到影响；

好的，背景就介绍到这里，下一篇咱们一起了解一些概念，方便兴许深入学习吧。大家继续加油。

什么是消息（Messaging）？

消息系统是一种实现近实时异步计算的流行方案。

如果你有一个站点，而且每次有人要载入一个页面，你发送一个“用户看了页面”的事件给一个消息系统。

你可能会有一些做以下事情的消费者：

* 为了未来做数据分析，存储消息到hadoop；

* 对页面訪问量进行计数而且更新到Dashboard

* 假设页面訪问失败触发一个报警；

* 发送一封邮件通知还有一个用户；

* 带着这个用户的相关信息增加页面展示事件，而且返回信息给消息系统；

总结一下。非常显然。一个消息系统能解耦全部这些来自实际网页服务的工作。

那什么是流式计算（处理）？

大家知道消息系统是一个相当低层次的基础设施（被歧视了--）——它存储消息等待消费者消费他们。当你開始写产生或者消费消息的代码时，你非常快会发如今处理层会有非常多恶心的问题须要你亲自处理。而Samza的目标就是帮助我们干掉这些恶心的家伙！

咱们那上面提到的（计算pv并更新到dashboard）样例来说吧。当你的正在跑的消费者机器突然挂掉了。而且你当前的计算的数值丢失了会发生什么？怎么恢复？当机器服务被重新启动时处理该从哪里開始？假设底层的消息系统反复发送了一条信息或者丢失了一条消息怎么办？或者你想依据url来分组统计pv？又或者一台机器处理的负载太大，你想分流到多台机器上进行统计在聚合？

流式计算为上述问题提供了一个非常好的解决方式，它是基于消息系统更高层次的抽象。

Samza

Samza是一个流式计算框架。它有下面特性：

* 简单的API：和绝大多数低层次消息系统API不同，相比MapReduce，Samza提供了一个很easy的“基于回调（callback-based）”的消息处理API。

*管理状态：samza管理快照和流处理器的状态恢复。当处理器重新启动，samza恢复其状态一致的快照。samza的建立是为了处理大量的状态。

* 容错性：当集群中有一台机器宕机了。基于Yarn管理的Samza会马上将你的任务导向还有一台机器；

* 持久性：Samza通过kafka保证消息按顺序写入相应分区，而且不会丢失消息；

* 扩展性：Samza在每一层都做了分区和分布。kafka提供了顺序的、分区、可复制的、容错的流。Yarn则为Samza的执行提供了一个分布式环境。

*可插拔：尽管Samza在Kafka和YARN的外部工作，可是Samza提供了能够让你在其他消息系统和执行环境里执行的可插拔的API；

*处理器隔离：执行在YARN上的Samza相同支持Hadoop安全模型以及通过linux CGroups进行资源隔离

供选方案：

眼下流行的开源流式计算方案都非常年轻。而且没有一个单一系统能提供一个全面的解决方式。在这个领域面临的新难题包含例如以下几个：1.一个流式计算的状态应该如何管理；2.流是否应该被缓冲到远程机器的磁盘上；3.当反复的信息被接受或者信息丢失该做什么；4.如何建立底层消息传递系统；

Samza的主要差别在于下面几个方面：

* Samza支持局部状态的容错。状态自己作为一个流被构造。

假设由于机器宕机本地状态丢失，那么状态流会回放又一次存储它。

* 流是有序、分区的、可回放的而且是容错的；

* YARN用来处理隔离、安全和容错。

* 任务之间是解耦的：假设有一个任务慢了而且造成了消息的积压。系统其他部分不会受到影响。

【Samza系列】实时计算Samza中文教程（一）背景的更多相关文章

【Samza系列】实时计算Samza中文教程（四）—API概述
上一篇和大家一起宏观上学习了Samza平台的架构,重点讲了一下数据缓冲层和资源管理层.剩下的一块非常重要的SamzaAPI层本节作为重点为大家展开介绍. 当你使用Samza来实现一个数据流处理 ...
【Samza系列】实时计算Samza中文教程（二）——概念
希望上一篇背景篇让大家对流式计算有了宏观的认识,本篇依据官网是介绍概念,先让我们看看有哪些东西呢? 概念一:Streams Samza是处理流的.流则是由一系列不可变的一种相似类型的消 ...
Netty4.x中文教程系列(五)编解码器Codec
Netty4.x中文教程系列(五)编解码器Codec 上一篇文章详细解释了ChannelHandler的相关构架设计,版本和设计逻辑变更等等. 这篇文章主要在于讲述Handler里面的Codec,也就 ...
struts2官方中文教程系列十一：使用XML进行表单验证
在本教程中,我们将讨论如何使用Struts 2的XML验证方法来验证表单字段中用户的输入.在前面的教程中,我们讨论了在Action类中使用validate方法验证用户的输入.使用单独的XML验证文件让 ...
Netty4.x中文教程系列(二) Hello World !
在中国程序界.我们都是学着Hello World !慢慢成长起来的.逐渐从一无所知到熟悉精通的. 第二章就从Hello World 开始讲述Netty的中文教程. 首先创建一个Java项目.引入一个N ...
Netty4.x中文教程系列(一) 目录及概述
Netty4.x中文教程系列(一)目录及概述 Netty 提供异步的.事件驱动的网络应用程序框架和工具,用以快速开发高性能.高可靠性的网络服务器和客户端程序. Netty是一个NIO客户端服务端框架 ...
Netty4.x中文教程系列(四) 对象传输
Netty4.x中文教程系列(四) 对象传输我们在使用netty的过程中肯定会遇到传输对象的情况,Netty4通过ObjectEncoder和ObjectDecoder来支持. 首先我们定义一个U ...
Netty4.x中文教程系列(三) ChannelHandler
Netty4.x中文教程系列(四) ChannelHandler 上一篇文章详细解释了Hello World示例的代码.里面涉及了一些Netty框架的基础. 这篇文章用以解释ChannelHandl ...
ArcGIS_系列中文教程
转自:http://www.cnblogs.com/gispeng/archive/2008/04/15/1154212.html ArcGIS_系列中文教程如链接有问题请在留言中说明ArcGIS ...

随机推荐

LeetCode（13）：罗马数字转整数
Easy! 题目描述: 罗马数字包含以下七种字符:I, V, X, L,C,D 和 M. 字符数值 I 1 V 5 X 10 L 50 C 100 D 500 M 1000 例如, 罗马数字 2 写 ...
如何将文本编辑器嵌入框架--以Umeditor&CodeIgniter框架为例
转:http://blog.csdn.net/u013332865/article/details/52066211 最近接到一个给某私立贵族(小,初,高 12年只是学费近200W)学校做一个网站,时 ...
格式化输出函数：printf 那些事（C语言）
printf函数提供格式化输出转换函数包含在头文件 <stdio.h> 中 #include <stdio.h> ...... 函数的原型在头文件的声明为 _CRTIMP ...
读研 or 工作？对计算机类专业学习的看法
先来介绍一下自己中南大学(不知名985双一流 A 类)大二计算机专业本科生,才学编程1年多一点.大一的时候搞了大半年 ACM,现在慢慢转向项目开发(在学习 JAVA 开发,U3D 和 C#),同时在 ...
【python学习-2】python起步必备
1.python缩进 python 缩进是tab,还是空格呢?都可以,可以是一个tab,也可以是4个空格,但是最重要的是整个python脚本的缩进必须统一,否则会报错. 2.代码注释 python注释 ...
闭包应用之延迟函数setTimeout
根据HTML 5标准,setTimeout推迟执行的时间,最少是5毫秒.如果小于这个值,会被自动增加到5ms. 每一个setTimeout在执行时,会返回一个唯一ID,把该ID保存在一个变量中,并传入 ...
【HDU 5382】 GCD?LCM! （数论、积性函数）
GCD?LCM! Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others)Total ...
hdu 1754 I Hate It（树状数组区间求最值）2007省赛集训队练习赛（6）_linle专场
题意: 输入一行数字,查询第i个数到第j个数之间的最大值.可以修改其中的某个数的值. 输入: 包含多组输入数据. 每组输入首行两个整数n,m.表示共有n个数,m次操作. 接下来一行包含n个整数. 接下 ...
springmvc.xml 上传文件的配置
<bean id="multipartResolver" class="org.springframework.web.multipart.commons.Comm ...
OpenVPN相同证书不同客户端设置不同静态IP的问题
无解!只能老老实实的使用不同证书不同客户端实现设置不同的静态IP.OpenVPN设置静态IP是根据证书名设置的,不能是登录名,无效. 无解! 无解!

【Samza系列】实时计算Samza中文教程（一）背景

【Samza系列】实时计算Samza中文教程（一）背景的更多相关文章

随机推荐

热门专题