上篇的内容,我们探讨了分布式计算中的MapReduce与批处理。所以本篇我们将继续探索分布式计算优化的相关细节,并且分析MapReduce与批处理的局限性,看看流式计算是否能给我们在分布式计算层面提供一个更好的解决方案。

1.MapReduce的局限

MapReduce作业是独立于其他作业,输入与输出目录通过分布式存储系统串联。MapReduce作业的存在相互的依赖关系,前后相互依赖的作业需要将后面作业的输入目录配置为与之前作业的输出目录,工作流调度器必须在第一个作业完成后才开始第二个作业。

  • 依赖关系的衔接问题

    MapReduce作业的输出的数据,写入分布式存储系统的过程称为物化。而通过将中间状态的数据物化,以充分利用中间状态的数据,可以实现作业之间松散的耦合,中间数据可以被其他作业重用,来加快分布式计算的性能。但MapReduce作业只能在前一个作业生产输入之后,后一个作业才能启动,所以整个工作流程的执行才相对缓慢。

  • 无界数据的演算

    在生产环境之中,很多数据是无界的,因为它随着时间的推移逐渐产生,这个过程永远不会结束。所以批处理计算必须人为地将数据分割成固定的时间段:例如,在每天结束时处理一天的数据,或者在每小时结束时处理一小时的数据。而这种方案对于时效性要求较高的应用来说,是不能接受的。

  • 多余的中间状态

    MapReduce任务会将中间状态的数据存储在分布式存储系统存储之中,这就意味着这些数据将会在多个节点上复制,尽管这样保证了数据的安全性,但是对于临时数据来说,有些矫枉过正,会占据大量的存储空间与不必要的磁盘读写操作。

2.数据流式计算

为了解决这些MapReduce的一些问题,新的计算引擎被提出,类似于Spark,Flink等。这些新的计算引擎有一个共同点:将整个处理流程作为一个大作业,而不是把它们分解成独立的子作业。通过几个处理阶段显式地处理数据流,所以这些系统称为数据流引擎。 计算部分与MapReduce类似,数据流引擎也通过调用用户定义函数来处理记录。并将输入进行分区,一个函数的输出可以成为下一个函数的输入。而与MapReduce不同的是,这些函数不必严格通过Map函数与Reduce函数进行交替运行,而是可以以更加灵活的方式进行组合。

相比起MapReduce模型,流式计算有如下几个优点:

  • 代价较高的工作,例如排序,只需要在实际需要的地方执行,而不是总是默认地在每个Map和Reduce阶段都需要进行。

  • 减少了不必要的Map任务,Mapper所做的工作常常可以合并上一个Reducer之中(因为Mapper不改变数据集的分区)。

  • 因为流中的所有的数据依赖关系都是显式声明的,所以调度器可以进行局部优化。例如,它可以尝试将某些数据互相依赖的任务调度在同一台机器之上,这样就可以通过共享内存缓冲区的方式交换数据,而不是通过网络进行传输,来加快作业的进行。

  • 作业运行的中间状态将被保存在内存中或本地磁盘中,比起写入到类HDFS的分布式存储系统之中,这样可以大大降低延迟。

  • 相比于MapReduce模型,流计算模型会显式重用JVM,来减少JVM启动关闭带来的性能损失。

数据流引擎可以实现与MapReduce引擎相同的计算模型,而且由于数据流引擎的优化工作,任务通常的执行速度会更快。

容错机制

将中间状态写入分布式存储系统并非一无是处,这其实是MapReduce模型的容错机制:一旦一个任务失败了,可以在另一台机器上重新启动,再从分布式存储系统之中读取相同的输入。而流计算引擎避免了将中间状态写入分布式存储系统,而采用了一种新的容错机制:一旦运行机器出现故障,机器上的中间状态会丢失,它会重新计算丢失的中间状态。

当需要重新计算中间状态之后,最为重要的计算的确定性:给定相同的输入数据,最终要产生相同的输出结果。如果丢失的数据已经发送给下一阶段的计算函数,那么这个问题就变得复杂了。如果重新计算的数据和上一次计算的结果不一致,需要同样中止下一阶段的计算。所以通过重新计算数据,来进行容错会比较苛刻而且会产生额外的计算代价:计算是CPU密集型的,那么重新计算可能会付出更高的代价。

3.更高层的API

无论是MapReduce还是流计算引擎,都是在较为底层的角度对数据进行分析与处理。而在这种角度上建立起编程模型是十分费时费力的事情,所以我们开始关注计算抽象化的问题,通过在更高的层次抽象底层的计算模型来实现:改进编程模型,提高处理效率,以及扩大这些技术可以解决的问题。

所以更加高级语言和API开始流行起来,如Hive、Pig、Impala等,他们将手工编写MapReduce作业进行了简化,只需要编写少量的代码便可以完成相同的任务,并且能够转移到新的数据流执行引擎不需要重新编写代码。除了需要更少代码的明显优势外,这些高级API还允许交互式的使用,我们可以在shell中逐步地编写分析代码,这种开发风格在探索数据集和尝试处理数据的方法时非常有用。

小结:

偷懒了一下,写了一篇很简短的篇幅的小结..............下一篇将聊一聊类消息队列的数据系统。

流式计算与计算抽象化------《Designing Data-Intensive Applications》读书笔记15的更多相关文章

  1. 流式大数据计算实践(1)----Hadoop单机模式

    一.前言 1.从今天开始进行流式大数据计算的实践之路,需要完成一个车辆实时热力图 2.技术选型:HBase作为数据仓库,Storm作为流式计算框架,ECharts作为热力图的展示 3.计划使用两台虚拟 ...

  2. 流式大数据计算实践(6)----Storm简介&使用&安装

    一.前言 1.这一文开始进入Storm流式计算框架的学习 二.Storm简介 1.Storm与Hadoop的区别就是,Hadoop是一个离线执行的作业,执行完毕就结束了,而Storm是可以源源不断的接 ...

  3. 流式大数据计算实践(7)----Hive安装

    一.前言 1.这一文学习使用Hive 二.Hive介绍与安装 Hive介绍:Hive是基于Hadoop的一个数据仓库工具,可以通过HQL语句(类似SQL)来操作HDFS上面的数据,其原理就是将用户写的 ...

  4. 流式大数据计算实践(5)----HBase使用&SpringBoot集成

    一.前言 1.上文中我们搭建好了一套HBase集群环境,这一文我们学习一下HBase的基本操作和客户端API的使用 二.shell操作 先通过命令进入HBase的命令行操作 /work/soft/hb ...

  5. 流式大数据计算实践(4)----HBase安装

    一.前言 1.前面我们搭建好了高可用的Hadoop集群,本文正式开始搭建HBase 2.HBase简介 (1)Master节点负责管理数据,类似Hadoop里面的namenode,但是他只负责建表改表 ...

  6. 流式大数据计算实践(2)----Hadoop集群和Zookeeper

    一.前言 1.上一文搭建好了Hadoop单机模式,这一文继续搭建Hadoop集群 二.搭建Hadoop集群 1.根据上文的流程得到两台单机模式的机器,并保证两台单机模式正常启动,记得第二台机器core ...

  7. 流式大数据计算实践(3)----高可用的Hadoop集群

    一.前言 1.上文中我们已经搭建好了Hadoop和Zookeeper的集群,这一文来将Hadoop集群变得高可用 2.由于Hadoop集群是主从节点的模式,如果集群中的namenode主节点挂掉,那么 ...

  8. python for data analysis 2nd 读书笔记(一)

    第一章相对简单,也么有什么需要记录的内容,主要用到的工具的简介及环境配置,粗略的过一下就行了.下面我们开始第二章的学习 CHAPTER 22.2Python Language Basics, IPyt ...

  9. StreamDM:基于Spark Streaming、支持在线学习的流式分析算法引擎

    StreamDM:基于Spark Streaming.支持在线学习的流式分析算法引擎 streamDM:Data Mining for Spark Streaming,华为诺亚方舟实验室开源了业界第一 ...

随机推荐

  1. MYSQL Optimizing LIMIT Queries

    如果要指定查询的数据行数,在查询语句中使用limit子句,而不是获取所有数据行结果集,然后去掉没用的数据. MYSQL有时会对没有having子句,带有limit关键字的查询进行优化: 1:如果用li ...

  2. react项目中遇到的坑

    1,touchStart和touchEnd 如果touchstart和touchend改变的是同一个state,那么在首次加载渲染的时候组件会陷入死循环,原因是touchstart会直接触发,但此时s ...

  3. Git-远程仓库的使用

    Git修改远程仓库地址 1.修改命令 git remote set-url origin [url] 例如:$ git remote set-url origin gitlab@gitlab.chum ...

  4. linux_vi快捷键

    vi有哪些快捷方式? 到行头: 0 ^ home 到行尾: $ shif+a(编辑模式) end 退出保存: wq . x .wq!(强制退出保存) 强制退出不保存: q! 光标移到文件最后一行: s ...

  5. jquery判断数据类型和相同字符串不相等

    typeof object返回object对象数据类型 encodeURIComponent(str)//可把字符串作为URI 组件进行编码. 若str1和str2字符串数值相同,encodeURIC ...

  6. 函数式编程--使用lambda表达式

    前面一篇博客我们已经说到了,lambda表达式允许使用更简洁的代码来创建只有一个抽象方法的接口的实例.现在我们来写一段java的命令者模式来自己研究下lambda表达式的语法. 这里重复下命令者模式: ...

  7. <global-results>标签来定义全局的<result>

    <global-results> <result name="error">/Error.jsp</result>   <!--   Ac ...

  8. weex 启动 ios 模拟器

    前提需要的安装 node npm weex-toolkit cocoaPods 1. 创建weex工程 weex create helloWolrd 2. 进入helloWolrd文件夹安装依赖,我用 ...

  9. java类路径classpath和包

    */ .hljs { display: block; overflow-x: auto; padding: 0.5em; color: #333; background: #f8f8f8; } .hl ...

  10. 小白的Python之路 day5 re正则模块

    re正则模块 一.概述 就其本质而言,正则表达式(或 RE)是一种小型的.高度专业化的编程语言,要讲他的具体用法要讲一本书!它内嵌在Python中,并通过 re 模块实现.你可以为想要匹配的相应字符串 ...