上篇的内容,我们探讨了分布式计算中的MapReduce与批处理。所以本篇我们将继续探索分布式计算优化的相关细节,并且分析MapReduce与批处理的局限性,看看流式计算是否能给我们在分布式计算层面提供一个更好的解决方案。

1.MapReduce的局限

MapReduce作业是独立于其他作业,输入与输出目录通过分布式存储系统串联。MapReduce作业的存在相互的依赖关系,前后相互依赖的作业需要将后面作业的输入目录配置为与之前作业的输出目录,工作流调度器必须在第一个作业完成后才开始第二个作业。

  • 依赖关系的衔接问题

    MapReduce作业的输出的数据,写入分布式存储系统的过程称为物化。而通过将中间状态的数据物化,以充分利用中间状态的数据,可以实现作业之间松散的耦合,中间数据可以被其他作业重用,来加快分布式计算的性能。但MapReduce作业只能在前一个作业生产输入之后,后一个作业才能启动,所以整个工作流程的执行才相对缓慢。

  • 无界数据的演算

    在生产环境之中,很多数据是无界的,因为它随着时间的推移逐渐产生,这个过程永远不会结束。所以批处理计算必须人为地将数据分割成固定的时间段:例如,在每天结束时处理一天的数据,或者在每小时结束时处理一小时的数据。而这种方案对于时效性要求较高的应用来说,是不能接受的。

  • 多余的中间状态

    MapReduce任务会将中间状态的数据存储在分布式存储系统存储之中,这就意味着这些数据将会在多个节点上复制,尽管这样保证了数据的安全性,但是对于临时数据来说,有些矫枉过正,会占据大量的存储空间与不必要的磁盘读写操作。

2.数据流式计算

为了解决这些MapReduce的一些问题,新的计算引擎被提出,类似于Spark,Flink等。这些新的计算引擎有一个共同点:将整个处理流程作为一个大作业,而不是把它们分解成独立的子作业。通过几个处理阶段显式地处理数据流,所以这些系统称为数据流引擎。 计算部分与MapReduce类似,数据流引擎也通过调用用户定义函数来处理记录。并将输入进行分区,一个函数的输出可以成为下一个函数的输入。而与MapReduce不同的是,这些函数不必严格通过Map函数与Reduce函数进行交替运行,而是可以以更加灵活的方式进行组合。

相比起MapReduce模型,流式计算有如下几个优点:

  • 代价较高的工作,例如排序,只需要在实际需要的地方执行,而不是总是默认地在每个Map和Reduce阶段都需要进行。

  • 减少了不必要的Map任务,Mapper所做的工作常常可以合并上一个Reducer之中(因为Mapper不改变数据集的分区)。

  • 因为流中的所有的数据依赖关系都是显式声明的,所以调度器可以进行局部优化。例如,它可以尝试将某些数据互相依赖的任务调度在同一台机器之上,这样就可以通过共享内存缓冲区的方式交换数据,而不是通过网络进行传输,来加快作业的进行。

  • 作业运行的中间状态将被保存在内存中或本地磁盘中,比起写入到类HDFS的分布式存储系统之中,这样可以大大降低延迟。

  • 相比于MapReduce模型,流计算模型会显式重用JVM,来减少JVM启动关闭带来的性能损失。

数据流引擎可以实现与MapReduce引擎相同的计算模型,而且由于数据流引擎的优化工作,任务通常的执行速度会更快。

容错机制

将中间状态写入分布式存储系统并非一无是处,这其实是MapReduce模型的容错机制:一旦一个任务失败了,可以在另一台机器上重新启动,再从分布式存储系统之中读取相同的输入。而流计算引擎避免了将中间状态写入分布式存储系统,而采用了一种新的容错机制:一旦运行机器出现故障,机器上的中间状态会丢失,它会重新计算丢失的中间状态。

当需要重新计算中间状态之后,最为重要的计算的确定性:给定相同的输入数据,最终要产生相同的输出结果。如果丢失的数据已经发送给下一阶段的计算函数,那么这个问题就变得复杂了。如果重新计算的数据和上一次计算的结果不一致,需要同样中止下一阶段的计算。所以通过重新计算数据,来进行容错会比较苛刻而且会产生额外的计算代价:计算是CPU密集型的,那么重新计算可能会付出更高的代价。

3.更高层的API

无论是MapReduce还是流计算引擎,都是在较为底层的角度对数据进行分析与处理。而在这种角度上建立起编程模型是十分费时费力的事情,所以我们开始关注计算抽象化的问题,通过在更高的层次抽象底层的计算模型来实现:改进编程模型,提高处理效率,以及扩大这些技术可以解决的问题。

所以更加高级语言和API开始流行起来,如Hive、Pig、Impala等,他们将手工编写MapReduce作业进行了简化,只需要编写少量的代码便可以完成相同的任务,并且能够转移到新的数据流执行引擎不需要重新编写代码。除了需要更少代码的明显优势外,这些高级API还允许交互式的使用,我们可以在shell中逐步地编写分析代码,这种开发风格在探索数据集和尝试处理数据的方法时非常有用。

小结:

偷懒了一下,写了一篇很简短的篇幅的小结..............下一篇将聊一聊类消息队列的数据系统。

流式计算与计算抽象化------《Designing Data-Intensive Applications》读书笔记15的更多相关文章

  1. 流式大数据计算实践(1)----Hadoop单机模式

    一.前言 1.从今天开始进行流式大数据计算的实践之路,需要完成一个车辆实时热力图 2.技术选型:HBase作为数据仓库,Storm作为流式计算框架,ECharts作为热力图的展示 3.计划使用两台虚拟 ...

  2. 流式大数据计算实践(6)----Storm简介&使用&安装

    一.前言 1.这一文开始进入Storm流式计算框架的学习 二.Storm简介 1.Storm与Hadoop的区别就是,Hadoop是一个离线执行的作业,执行完毕就结束了,而Storm是可以源源不断的接 ...

  3. 流式大数据计算实践(7)----Hive安装

    一.前言 1.这一文学习使用Hive 二.Hive介绍与安装 Hive介绍:Hive是基于Hadoop的一个数据仓库工具,可以通过HQL语句(类似SQL)来操作HDFS上面的数据,其原理就是将用户写的 ...

  4. 流式大数据计算实践(5)----HBase使用&SpringBoot集成

    一.前言 1.上文中我们搭建好了一套HBase集群环境,这一文我们学习一下HBase的基本操作和客户端API的使用 二.shell操作 先通过命令进入HBase的命令行操作 /work/soft/hb ...

  5. 流式大数据计算实践(4)----HBase安装

    一.前言 1.前面我们搭建好了高可用的Hadoop集群,本文正式开始搭建HBase 2.HBase简介 (1)Master节点负责管理数据,类似Hadoop里面的namenode,但是他只负责建表改表 ...

  6. 流式大数据计算实践(2)----Hadoop集群和Zookeeper

    一.前言 1.上一文搭建好了Hadoop单机模式,这一文继续搭建Hadoop集群 二.搭建Hadoop集群 1.根据上文的流程得到两台单机模式的机器,并保证两台单机模式正常启动,记得第二台机器core ...

  7. 流式大数据计算实践(3)----高可用的Hadoop集群

    一.前言 1.上文中我们已经搭建好了Hadoop和Zookeeper的集群,这一文来将Hadoop集群变得高可用 2.由于Hadoop集群是主从节点的模式,如果集群中的namenode主节点挂掉,那么 ...

  8. python for data analysis 2nd 读书笔记(一)

    第一章相对简单,也么有什么需要记录的内容,主要用到的工具的简介及环境配置,粗略的过一下就行了.下面我们开始第二章的学习 CHAPTER 22.2Python Language Basics, IPyt ...

  9. StreamDM:基于Spark Streaming、支持在线学习的流式分析算法引擎

    StreamDM:基于Spark Streaming.支持在线学习的流式分析算法引擎 streamDM:Data Mining for Spark Streaming,华为诺亚方舟实验室开源了业界第一 ...

随机推荐

  1. linux如何安装java环境

    linux安装jdk7步骤: 1.首先使用命令查看linux系统版本号: lsb_release -a 11 2.下载对应的jdk版本,笔者使用的是jdk-7u79-linux-x64.tar.gz: ...

  2. enum 操作

    body, table{font-family: 微软雅黑; font-size: 10pt} table{border-collapse: collapse; border: solid gray; ...

  3. junit设计模式--适配器模式

    适配器(Adapter)模式 在软件系统中,由于环境的变化,常常需要将"一些现存的对象"放在新的环境中应用,但是新环境要求的接口是这些现存对象所不满足的.那么如何应对这种" ...

  4. Servlet--HttpSession接口,HttpSessionContext接口,Cookie类

    HttpSession接口 定义 public interface HttpSession 这个接口被 Servlet 引擎用来实现在 HTTP 客户端和 HTTP 会话两者的关联.这种关联可能在多外 ...

  5. PhpStudy 升级 MySQL 版本到5.7

    1:备份当前数据库数据. 最好是导成 SQL 文件 2:备份 PhpStudy 下的 MySQL 文件夹.以防升级失败.还可以使用旧版本的数据库 3:下载MySQL5.7.解压.然后放在 PhpStu ...

  6. IIS使用十大原则,(IIS过期时间,IIS缓存设置) 【转载】

    1. 自定义错误页虽然自定义错误页很简单,但只有少数管理员有效地利用了它.管理员可以在MMC中将HTTP错误信息映像到服务器上的绝对URL或是某个文件,更为详细的信息可以在这里找到.如果你嫌这太麻烦, ...

  7. Storm容错和高可用

    Daemon Fault Tolerance Storm有一些不同的守护进程 Nimbus负责调度workers supervisors负责运行和杀死workers log views负责访问日志 U ...

  8. 理解Object.defineProperty的作用

    对象是由多个名/值对组成的无序的集合.对象中每个属性对应任意类型的值.定义对象可以使用构造函数或字面量的形式: var obj = new Object; //obj = {} obj.name = ...

  9. sed的替换命令

    例1: [root@nhserver2 ~]# cat nagios.txt<TD ALIGN=LEFT valign=center CLASS='statusBGCRITICAL'>&l ...

  10. JavaSE基础篇—MySQL三大范式—数据库设计规范

    1.概   念     范式是一种符合设计要求的总结,要想设计一个结构合理的关系型数据库,必须满足一定的范式.各个范式是以此嵌套包含的,范式越高,设计等级越高,在现实设计中也越难实现,一般数据库只要打 ...