大家应该听我在前言篇里扯皮后,迫不及待要来一看Samza到底是何物了吧?先了解一下Samza的Background是不可缺少的(至少官网上是放在第一个的),我们须要从哪些技术背景去了解呢?
    什么是消息(Messaging)?
    消息系统是一种实现近实时异步计算的流行方案。

消息产生时能够被放入一个消息队列(ActiveMQ,RabbitMQ)、公布-订阅系统(Kestrel,Kafka)或者日志聚合系统(Flume、Scribe)。下游消费者从上述系统读取消息而且处理它们或者基于消息的内容产生进一步的动作。

    如果你有一个站点,而且每次有人要载入一个页面,你发送一个“用户看了页面”的事件给一个消息系统。你可能会有一些做以下事情的消费者:
    * 为了未来做数据分析,存储消息到hadoop。
    * 对页面訪问量进行计数而且更新到Dashboard
    * 假设页面訪问失败触发一个报警。
    * 发送一封邮件通知还有一个用户;
    * 带着这个用户的相关信息增加页面展示事件,而且返回信息给消息系统;
    总结一下。非常显然。一个消息系统能解耦全部这些来自实际网页服务的工作。

    那什么是流式计算(处理)?
    大家知道消息系统是一个相当低层次的基础设施(被歧视了--)——它存储消息等待消费者消费他们。当你開始写产生或者消费消息的代码时,你非常快会发如今处理层会有非常多恶心的问题须要你亲自处理。而Samza的目标就是帮助我们干掉这些恶心的家伙。
    咱们那上面提到的(计算pv并更新到dashboard)样例来说吧。当你的正在跑的消费者机器突然挂掉了,而且你当前的计算的数值丢失了会发生什么?怎么恢复?当机器服务被重新启动时处理该从哪里開始?假设底层的消息系统反复发送了一条信息或者丢失了一条消息怎么办?或者你想依据url来分组统计pv?又或者一台机器处理的负载太大。你想分流到多台机器上进行统计在聚合?
    流式计算为上述问题提供了一个非常好的解决方式,它是基于消息系统更高层次的抽象。

    Samza
    Samza是一个流式计算框架,它有下面特性:
    * 简单的API:和绝大多数低层次消息系统API不同,相比MapReduce,Samza提供了一个很easy的“基于回调(callback-based)”的消息处理API;
    *管理状态:samza管理快照和流处理器的状态恢复。当处理器重新启动,samza恢复其状态一致的快照。

samza的建立是为了处理大量的状态。

    * 容错性:当集群中有一台机器宕机了。基于Yarn管理的Samza会马上将你的任务导向还有一台机器。
    * 持久性:Samza通过kafka保证消息按顺序写入相应分区。而且不会丢失消息;
    * 扩展性:Samza在每一层都做了分区和分布。kafka提供了顺序的、分区、可复制的、容错的流。Yarn则为Samza的执行提供了一个分布式环境。
    *可插拔:尽管Samza在Kafka和YARN的外部工作,可是Samza提供了能够让你在其他消息系统和执行环境里执行的可插拔的API;
    *处理器隔离:执行在YARN上的Samza相同支持Hadoop安全模型以及通过linux CGroups进行资源隔离
    
    供选方案:
    眼下流行的开源流式计算方案都非常年轻。而且没有一个单一系统能提供一个全面的解决方式。

在这个领域面临的新难题包含例如以下几个:1.一个流式计算的状态应该如何管理;2.流是否应该被缓冲到远程机器的磁盘上;3.当反复的信息被接受或者信息丢失该做什么;4.如何建立底层消息传递系统;

    Samza的主要差别在于下面几个方面:
    * Samza支持局部状态的容错。

状态自己作为一个流被构造。

假设由于机器宕机本地状态丢失,那么状态流会回放又一次存储它。

    * 流是有序、分区的、可回放的而且是容错的。
    * YARN用来处理隔离、安全和容错;
    * 任务之间是解耦的:假设有一个任务慢了而且造成了消息的积压,系统其他部分不会受到影响;

    好的,背景就介绍到这里,下一篇咱们一起了解一些概念,方便兴许深入学习吧。大家继续加油。
    
    大家应该听我在前言篇里扯皮后,迫不及待要来一看Samza到底是何物了吧?先了解一下Samza的Background是不可缺少的(至少官网上是放在第一个的),我们须要从哪些技术背景去了解呢?
    什么是消息(Messaging)?
    消息系统是一种实现近实时异步计算的流行方案。

消息产生时能够被放入一个消息队列(ActiveMQ,RabbitMQ)、公布-订阅系统(Kestrel,Kafka)或者日志聚合系统(Flume、Scribe)。下游消费者从上述系统读取消息而且处理它们或者基于消息的内容产生进一步的动作。

    如果你有一个站点,而且每次有人要载入一个页面,你发送一个“用户看了页面”的事件给一个消息系统。

你可能会有一些做以下事情的消费者:

    * 为了未来做数据分析,存储消息到hadoop;
    * 对页面訪问量进行计数而且更新到Dashboard
    * 假设页面訪问失败触发一个报警;
    * 发送一封邮件通知还有一个用户;
    * 带着这个用户的相关信息增加页面展示事件,而且返回信息给消息系统;
    总结一下。非常显然。一个消息系统能解耦全部这些来自实际网页服务的工作。

    那什么是流式计算(处理)?
    大家知道消息系统是一个相当低层次的基础设施(被歧视了--)——它存储消息等待消费者消费他们。当你開始写产生或者消费消息的代码时,你非常快会发如今处理层会有非常多恶心的问题须要你亲自处理。而Samza的目标就是帮助我们干掉这些恶心的家伙!

    咱们那上面提到的(计算pv并更新到dashboard)样例来说吧。当你的正在跑的消费者机器突然挂掉了。而且你当前的计算的数值丢失了会发生什么?怎么恢复?当机器服务被重新启动时处理该从哪里開始?假设底层的消息系统反复发送了一条信息或者丢失了一条消息怎么办?或者你想依据url来分组统计pv?又或者一台机器处理的负载太大,你想分流到多台机器上进行统计在聚合?
    流式计算为上述问题提供了一个非常好的解决方式,它是基于消息系统更高层次的抽象。

   Samza
   Samza是一个流式计算框架。它有下面特性:
    * 简单的API:和绝大多数低层次消息系统API不同,相比MapReduce,Samza提供了一个很easy的“基于回调(callback-based)”的消息处理API。
    *管理状态:samza管理快照和流处理器的状态恢复。当处理器重新启动,samza恢复其状态一致的快照。samza的建立是为了处理大量的状态。
    * 容错性:当集群中有一台机器宕机了。基于Yarn管理的Samza会马上将你的任务导向还有一台机器;
    * 持久性:Samza通过kafka保证消息按顺序写入相应分区,而且不会丢失消息;
    * 扩展性:Samza在每一层都做了分区和分布。kafka提供了顺序的、分区、可复制的、容错的流。Yarn则为Samza的执行提供了一个分布式环境。
    *可插拔:尽管Samza在Kafka和YARN的外部工作,可是Samza提供了能够让你在其他消息系统和执行环境里执行的可插拔的API;
    *处理器隔离:执行在YARN上的Samza相同支持Hadoop安全模型以及通过linux CGroups进行资源隔离
    
    供选方案:
    眼下流行的开源流式计算方案都非常年轻。而且没有一个单一系统能提供一个全面的解决方式。在这个领域面临的新难题包含例如以下几个:1.一个流式计算的状态应该如何管理;2.流是否应该被缓冲到远程机器的磁盘上;3.当反复的信息被接受或者信息丢失该做什么;4.如何建立底层消息传递系统;
    Samza的主要差别在于下面几个方面:
    * Samza支持局部状态的容错。状态自己作为一个流被构造。

假设由于机器宕机本地状态丢失,那么状态流会回放又一次存储它。

    * 流是有序、分区的、可回放的而且是容错的;
    * YARN用来处理隔离、安全和容错。
    * 任务之间是解耦的:假设有一个任务慢了而且造成了消息的积压。系统其他部分不会受到影响。
    

【Samza系列】实时计算Samza中文教程(一)背景的更多相关文章

  1. 【Samza系列】实时计算Samza中文教程(四)—API概述

    上一篇和大家一起宏观上学习了Samza平台的架构,重点讲了一下数据缓冲层和资源管理层.剩下的一块非常重要的SamzaAPI层本节作为重点为大家展开介绍.     当你使用Samza来实现一个数据流处理 ...

  2. 【Samza系列】实时计算Samza中文教程(二)——概念

    希望上一篇背景篇让大家对流式计算有了宏观的认识,本篇依据官网是介绍概念,先让我们看看有哪些东西呢?     概念一:Streams     Samza是处理流的.流则是由一系列不可变的一种相似类型的消 ...

  3. Netty4.x中文教程系列(五)编解码器Codec

    Netty4.x中文教程系列(五)编解码器Codec 上一篇文章详细解释了ChannelHandler的相关构架设计,版本和设计逻辑变更等等. 这篇文章主要在于讲述Handler里面的Codec,也就 ...

  4. struts2官方 中文教程 系列十一:使用XML进行表单验证

    在本教程中,我们将讨论如何使用Struts 2的XML验证方法来验证表单字段中用户的输入.在前面的教程中,我们讨论了在Action类中使用validate方法验证用户的输入.使用单独的XML验证文件让 ...

  5. Netty4.x中文教程系列(二) Hello World !

    在中国程序界.我们都是学着Hello World !慢慢成长起来的.逐渐从一无所知到熟悉精通的. 第二章就从Hello World 开始讲述Netty的中文教程. 首先创建一个Java项目.引入一个N ...

  6. Netty4.x中文教程系列(一) 目录及概述

    Netty4.x中文教程系列(一)目录及概述 Netty 提供异步的.事件驱动的网络应用程序框架和工具,用以快速开发高性能.高可靠性的网络服务器和客户端程序. Netty是一个NIO客户端 服务端框架 ...

  7. Netty4.x中文教程系列(四) 对象传输

    Netty4.x中文教程系列(四)  对象传输 我们在使用netty的过程中肯定会遇到传输对象的情况,Netty4通过ObjectEncoder和ObjectDecoder来支持. 首先我们定义一个U ...

  8. Netty4.x中文教程系列(三) ChannelHandler

    Netty4.x中文教程系列(四)  ChannelHandler 上一篇文章详细解释了Hello World示例的代码.里面涉及了一些Netty框架的基础. 这篇文章用以解释ChannelHandl ...

  9. ArcGIS_系列中文教程

    转自:http://www.cnblogs.com/gispeng/archive/2008/04/15/1154212.html  ArcGIS_系列中文教程 如链接有问题请在留言中说明ArcGIS ...

随机推荐

  1. Extjs Window用法详解 3 打印具体应用,是否关掉打印预览的界面

    Extjs Window用法详解 3 打印具体应用,是否关掉打印预览的界面   Extjs 中的按钮元素 {xtype: 'buttongroup',title: '打印',items: [me.ts ...

  2. About Saliency Object Detection

    显著性对象检测综述 详见:http://mmcheng.net/zh/paperreading/ 一.    程明明等人的论文:Salient Object Detection: A Survey(简 ...

  3. Java编程的逻辑 (23) - 枚举的本质

    ​本系列文章经补充和完善,已修订整理成书<Java编程的逻辑>,由机械工业出版社华章分社出版,于2018年1月上市热销,读者好评如潮!各大网店和书店有售,欢迎购买,京东自营链接:http: ...

  4. 字符串匹配的kmp算法 及 python实现

    一:背景 给定一个主串(以 S 代替)和模式串(以 P 代替),要求找出 P 在 S 中出现的位置,此即串的模式匹配问题. Knuth-Morris-Pratt 算法(简称 KMP)是解决这一问题的常 ...

  5. linux 检测远程端口是否打开

    linux 检测远程端口是否打开   检测远程端口是否打开   常用telnet 110.101.101.101 80方式测试远程主机端口是否打开.   除此之外还可以使用:   方法1.nmap i ...

  6. ABP单元测试

    一.介绍 在本文中,我将介绍如何为基于ASP.NET Boilerplate的项目创建单元测试. 我将使用本文开发的相同的应用程序(使用AngularJs,ASP.NET MVC,Web API和En ...

  7. 如何对vue项目进行优化,加快首页加载速度

    上个月上线了一个vue小项目,刚做完项目,打包上线之后,传到服务器上发现首页加载巨慢. 由于开发时间比较紧,我想着怎么快怎么来,因而在开发过程中没考虑过优化性能问题,酿成最后在带宽5M的情况下页面加载 ...

  8. BZOJ.1023.[SHOI2008]cactus仙人掌图(DP)

    题目链接 类似求树的直径,可以用(类似)树形DP求每个点其子树(在仙人掌上就是诱导子图)最长链.次长链,用每个点子节点不同子树的 max{最长链}+max{次长链} 更新答案.(不需要存次长链,求解过 ...

  9. zoj 3640 概率dp

    题意:一只吸血鬼,有n条路给他走,每次他随机走一条路,每条路有个限制,如果当时这个吸血鬼的攻击力大于等于某个值,那么就会花费t天逃出去,否则,花费1天的时间,并且攻击力增加,问他逃出去的期望 用记忆化 ...

  10. 使用httpclient需要的maven依赖

    <!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpcore --> <dependency& ...