大家应该听我在前言篇里扯皮后,迫不及待要来一看Samza到底是何物了吧?先了解一下Samza的Background是不可缺少的(至少官网上是放在第一个的),我们须要从哪些技术背景去了解呢?
    什么是消息(Messaging)?
    消息系统是一种实现近实时异步计算的流行方案。

消息产生时能够被放入一个消息队列(ActiveMQ,RabbitMQ)、公布-订阅系统(Kestrel,Kafka)或者日志聚合系统(Flume、Scribe)。下游消费者从上述系统读取消息而且处理它们或者基于消息的内容产生进一步的动作。

    如果你有一个站点,而且每次有人要载入一个页面,你发送一个“用户看了页面”的事件给一个消息系统。你可能会有一些做以下事情的消费者:
    * 为了未来做数据分析,存储消息到hadoop。
    * 对页面訪问量进行计数而且更新到Dashboard
    * 假设页面訪问失败触发一个报警。
    * 发送一封邮件通知还有一个用户;
    * 带着这个用户的相关信息增加页面展示事件,而且返回信息给消息系统;
    总结一下。非常显然。一个消息系统能解耦全部这些来自实际网页服务的工作。

    那什么是流式计算(处理)?
    大家知道消息系统是一个相当低层次的基础设施(被歧视了--)——它存储消息等待消费者消费他们。当你開始写产生或者消费消息的代码时,你非常快会发如今处理层会有非常多恶心的问题须要你亲自处理。而Samza的目标就是帮助我们干掉这些恶心的家伙。
    咱们那上面提到的(计算pv并更新到dashboard)样例来说吧。当你的正在跑的消费者机器突然挂掉了,而且你当前的计算的数值丢失了会发生什么?怎么恢复?当机器服务被重新启动时处理该从哪里開始?假设底层的消息系统反复发送了一条信息或者丢失了一条消息怎么办?或者你想依据url来分组统计pv?又或者一台机器处理的负载太大。你想分流到多台机器上进行统计在聚合?
    流式计算为上述问题提供了一个非常好的解决方式,它是基于消息系统更高层次的抽象。

    Samza
    Samza是一个流式计算框架,它有下面特性:
    * 简单的API:和绝大多数低层次消息系统API不同,相比MapReduce,Samza提供了一个很easy的“基于回调(callback-based)”的消息处理API;
    *管理状态:samza管理快照和流处理器的状态恢复。当处理器重新启动,samza恢复其状态一致的快照。

samza的建立是为了处理大量的状态。

    * 容错性:当集群中有一台机器宕机了。基于Yarn管理的Samza会马上将你的任务导向还有一台机器。
    * 持久性:Samza通过kafka保证消息按顺序写入相应分区。而且不会丢失消息;
    * 扩展性:Samza在每一层都做了分区和分布。kafka提供了顺序的、分区、可复制的、容错的流。Yarn则为Samza的执行提供了一个分布式环境。
    *可插拔:尽管Samza在Kafka和YARN的外部工作,可是Samza提供了能够让你在其他消息系统和执行环境里执行的可插拔的API;
    *处理器隔离:执行在YARN上的Samza相同支持Hadoop安全模型以及通过linux CGroups进行资源隔离
    
    供选方案:
    眼下流行的开源流式计算方案都非常年轻。而且没有一个单一系统能提供一个全面的解决方式。

在这个领域面临的新难题包含例如以下几个:1.一个流式计算的状态应该如何管理;2.流是否应该被缓冲到远程机器的磁盘上;3.当反复的信息被接受或者信息丢失该做什么;4.如何建立底层消息传递系统;

    Samza的主要差别在于下面几个方面:
    * Samza支持局部状态的容错。

状态自己作为一个流被构造。

假设由于机器宕机本地状态丢失,那么状态流会回放又一次存储它。

    * 流是有序、分区的、可回放的而且是容错的。
    * YARN用来处理隔离、安全和容错;
    * 任务之间是解耦的:假设有一个任务慢了而且造成了消息的积压,系统其他部分不会受到影响;

    好的,背景就介绍到这里,下一篇咱们一起了解一些概念,方便兴许深入学习吧。大家继续加油。
    
    大家应该听我在前言篇里扯皮后,迫不及待要来一看Samza到底是何物了吧?先了解一下Samza的Background是不可缺少的(至少官网上是放在第一个的),我们须要从哪些技术背景去了解呢?
    什么是消息(Messaging)?
    消息系统是一种实现近实时异步计算的流行方案。

消息产生时能够被放入一个消息队列(ActiveMQ,RabbitMQ)、公布-订阅系统(Kestrel,Kafka)或者日志聚合系统(Flume、Scribe)。下游消费者从上述系统读取消息而且处理它们或者基于消息的内容产生进一步的动作。

    如果你有一个站点,而且每次有人要载入一个页面,你发送一个“用户看了页面”的事件给一个消息系统。

你可能会有一些做以下事情的消费者:

    * 为了未来做数据分析,存储消息到hadoop;
    * 对页面訪问量进行计数而且更新到Dashboard
    * 假设页面訪问失败触发一个报警;
    * 发送一封邮件通知还有一个用户;
    * 带着这个用户的相关信息增加页面展示事件,而且返回信息给消息系统;
    总结一下。非常显然。一个消息系统能解耦全部这些来自实际网页服务的工作。

    那什么是流式计算(处理)?
    大家知道消息系统是一个相当低层次的基础设施(被歧视了--)——它存储消息等待消费者消费他们。当你開始写产生或者消费消息的代码时,你非常快会发如今处理层会有非常多恶心的问题须要你亲自处理。而Samza的目标就是帮助我们干掉这些恶心的家伙!

    咱们那上面提到的(计算pv并更新到dashboard)样例来说吧。当你的正在跑的消费者机器突然挂掉了。而且你当前的计算的数值丢失了会发生什么?怎么恢复?当机器服务被重新启动时处理该从哪里開始?假设底层的消息系统反复发送了一条信息或者丢失了一条消息怎么办?或者你想依据url来分组统计pv?又或者一台机器处理的负载太大,你想分流到多台机器上进行统计在聚合?
    流式计算为上述问题提供了一个非常好的解决方式,它是基于消息系统更高层次的抽象。

   Samza
   Samza是一个流式计算框架。它有下面特性:
    * 简单的API:和绝大多数低层次消息系统API不同,相比MapReduce,Samza提供了一个很easy的“基于回调(callback-based)”的消息处理API。
    *管理状态:samza管理快照和流处理器的状态恢复。当处理器重新启动,samza恢复其状态一致的快照。samza的建立是为了处理大量的状态。
    * 容错性:当集群中有一台机器宕机了。基于Yarn管理的Samza会马上将你的任务导向还有一台机器;
    * 持久性:Samza通过kafka保证消息按顺序写入相应分区,而且不会丢失消息;
    * 扩展性:Samza在每一层都做了分区和分布。kafka提供了顺序的、分区、可复制的、容错的流。Yarn则为Samza的执行提供了一个分布式环境。
    *可插拔:尽管Samza在Kafka和YARN的外部工作,可是Samza提供了能够让你在其他消息系统和执行环境里执行的可插拔的API;
    *处理器隔离:执行在YARN上的Samza相同支持Hadoop安全模型以及通过linux CGroups进行资源隔离
    
    供选方案:
    眼下流行的开源流式计算方案都非常年轻。而且没有一个单一系统能提供一个全面的解决方式。在这个领域面临的新难题包含例如以下几个:1.一个流式计算的状态应该如何管理;2.流是否应该被缓冲到远程机器的磁盘上;3.当反复的信息被接受或者信息丢失该做什么;4.如何建立底层消息传递系统;
    Samza的主要差别在于下面几个方面:
    * Samza支持局部状态的容错。状态自己作为一个流被构造。

假设由于机器宕机本地状态丢失,那么状态流会回放又一次存储它。

    * 流是有序、分区的、可回放的而且是容错的;
    * YARN用来处理隔离、安全和容错。
    * 任务之间是解耦的:假设有一个任务慢了而且造成了消息的积压。系统其他部分不会受到影响。
    

【Samza系列】实时计算Samza中文教程(一)背景的更多相关文章

  1. 【Samza系列】实时计算Samza中文教程(四)—API概述

    上一篇和大家一起宏观上学习了Samza平台的架构,重点讲了一下数据缓冲层和资源管理层.剩下的一块非常重要的SamzaAPI层本节作为重点为大家展开介绍.     当你使用Samza来实现一个数据流处理 ...

  2. 【Samza系列】实时计算Samza中文教程(二)——概念

    希望上一篇背景篇让大家对流式计算有了宏观的认识,本篇依据官网是介绍概念,先让我们看看有哪些东西呢?     概念一:Streams     Samza是处理流的.流则是由一系列不可变的一种相似类型的消 ...

  3. Netty4.x中文教程系列(五)编解码器Codec

    Netty4.x中文教程系列(五)编解码器Codec 上一篇文章详细解释了ChannelHandler的相关构架设计,版本和设计逻辑变更等等. 这篇文章主要在于讲述Handler里面的Codec,也就 ...

  4. struts2官方 中文教程 系列十一:使用XML进行表单验证

    在本教程中,我们将讨论如何使用Struts 2的XML验证方法来验证表单字段中用户的输入.在前面的教程中,我们讨论了在Action类中使用validate方法验证用户的输入.使用单独的XML验证文件让 ...

  5. Netty4.x中文教程系列(二) Hello World !

    在中国程序界.我们都是学着Hello World !慢慢成长起来的.逐渐从一无所知到熟悉精通的. 第二章就从Hello World 开始讲述Netty的中文教程. 首先创建一个Java项目.引入一个N ...

  6. Netty4.x中文教程系列(一) 目录及概述

    Netty4.x中文教程系列(一)目录及概述 Netty 提供异步的.事件驱动的网络应用程序框架和工具,用以快速开发高性能.高可靠性的网络服务器和客户端程序. Netty是一个NIO客户端 服务端框架 ...

  7. Netty4.x中文教程系列(四) 对象传输

    Netty4.x中文教程系列(四)  对象传输 我们在使用netty的过程中肯定会遇到传输对象的情况,Netty4通过ObjectEncoder和ObjectDecoder来支持. 首先我们定义一个U ...

  8. Netty4.x中文教程系列(三) ChannelHandler

    Netty4.x中文教程系列(四)  ChannelHandler 上一篇文章详细解释了Hello World示例的代码.里面涉及了一些Netty框架的基础. 这篇文章用以解释ChannelHandl ...

  9. ArcGIS_系列中文教程

    转自:http://www.cnblogs.com/gispeng/archive/2008/04/15/1154212.html  ArcGIS_系列中文教程 如链接有问题请在留言中说明ArcGIS ...

随机推荐

  1. logback.xml 模板

    ssm模板 <?xml version="1.0" encoding="UTF-8"?>  <!--configuration 根节点,包含下 ...

  2. 对象克隆及属性转换-JavaScript

    在某些项目中,需要将一些返回信息进行其他语言的翻译,可以为不同语言用户提供不同的语言版本.下面是一个实现: /** * @class Translate * @description 查询字典,翻译成 ...

  3. javaScript对金额处理的方式

    例如 var price = $("#price").val(); 此时price 为字符串格式 假使我们想将其乘以100 可以选择 price*100将其转换为数值格式 但是有些 ...

  4. Luogu P1549 棋盘问题(2)

    题意 在N×N的棋盘上(1≤N≤10),填入1,2,-,N^2,共N^2个数,使得任意两个相邻的数之和为素数. 思路 先线性筛(非标准版),然后用a数组记录以i为下标的数是不是质数(就是标记数组),然 ...

  5. 一步一步学习IdentityServer3 (1)

    学习之初: IdentityServer3我自己最开始了解到的就是做一个SSO单点登录,后面发现还有单独的认证服务功能,其实它还可以做APIs的访问控制,资源授权,另外还可以为提供第三方登录,其他的自 ...

  6. codewar 上做练习的一些感触

    废话 在[codewar][1]上做练习,每次都是尽量快速地做完,然后赶着去看排名里面clever分最高的solution,看完每次都要感叹一下人家怎么可以写得这么简洁,甚至有一次我用了一段大约七八行 ...

  7. 有关redis相关的性能优化及内存说明

    本篇文章不涉及redis的安装配置,百度或谷歌即可,很简单. 首先,我来说说redis的应用场景,大部分公司都是将redis作为缓存服务器,或者作为ELK日志收集里面的缓存角色(其他这里就不做介绍,比 ...

  8. HTML5 LocalStorage 本地存储(转)

    原文:http://www.cnblogs.com/xiaowei0705/archive/2011/04/19/2021372.html HTML5 LocalStorage 本地存储 说到本地存储 ...

  9. Redis客户端连接以及持久化数据(三)

    0.Redis目录结构 1)Redis介绍及部署在CentOS7上(一) 2)Redis指令与数据结构(二) 3)Redis客户端连接以及持久化数据(三) 4)Redis高可用之主从复制实践(四) 5 ...

  10. ADSL

    ADSL属于DSL技术的一种,全称Asymmetric Digital Subscriber Line( 非对称数字用户线路),亦可称作非对称数字用户环路.是一种新的数据传输方式. ADSL技术提供的 ...