Spark设计思想浅析

Spark is no rocket science!——博主

了解分布式计算的朋友，一定知道DAG这样一个概念。其实我接触DAG也是在学习MapReduce时了解到的。（具体可查阅《大数据日知录：架构与算法》这本书。推荐阅读。）

DAG，有向无环图。可以脑补一下DAG是个什么东西：有向、无环、图，如是而已，意思实在是再明白不过了。如果把DAG讲的复杂一点，还会涉及到DAG计算系统的三层结构等较深入的设计与实现细节。

还有一个概念大家也应该有所了解：批处理计算系统。批处理，批量处理。批量，有数据量巨大的意思。批处理计算系统，就是要在巨大的数据量上做计算。

Spark就是一个DAG的批处理计算系统。MapReduce算一个DAG的批处理计算框架。

有向无环图的计算过程，相邻的两个节点之间如何传输数据？在MapReduce框架中，使用的是先将计算结果保存到磁盘，然后通过网络传输到下一节点。把计算结果保存到磁盘有一个问题，那就是磁盘的读写速度，以固态硬盘为例，大约为500M/s，这个速度已经很快了；而DDR3内存的读写速度大致在8G/s左右。这差距在一个数量级。节点之间网络传输的速度可以提高到千兆甚至万兆，在硬件支持的情形下，大致也有1G/s的传输速度。可以说，磁盘的读写是最耗时的。

减少磁盘读写的比重是提高计算速率的一个重要方面。所以Berkeley实验室提出了RDD这样一个概念。一段文字：

　　RDD具备像MapReduce等数据流模型的容错特性，并且允许开发人员在大型集群上执行基于内存的计算。现有的数据流系统对两种应用的处理并不高效：一是迭代式算法，这在图应用和机器学习领域很常见；二是交互式数据挖掘工具。这两种情况下，将数据保存在内存中能够极大地提高性能。为了有效地实现容错，RDD提供了一种高度受限的共享内存，即RDD是只读的，并且只能通过其他RDD上的批量操作来创建。尽管如此，RDD仍然足以表示很多类型的计算，包括MapReduce和专用的迭代编程模型（如Pregel）等。我们实现的RDD在迭代计算方面比Hadoop快20多倍，同时还可以在5-7秒内交互式地查询1TB数据集。——Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing译文

除了读写速率的提高引起的计算速率的提升，另外一方面，在MapReduce计算框架下，每个job只能有单一一个Reduce，每个job启动开销较大的问题也在更通用的DAG模型下得到了解决。为什么？DAG模型是Map/Reduce任务的抽象化。在Spark这个DAG批处理计算系统里，有更多的Transformation和action可以选择，也包括了Map和Reduce。

Spark设计思想浅析的更多相关文章

CEPH浅析”系列之三——CEPH的设计思想
Ceph针对的目标应用场景理解Ceph的设计思想,首先还是要了解Sage设计Ceph时所针对的目标应用场景,换言之,"做这东西的目的是啥?" 事实上,Ceph最初针对的目标应用场 ...
Kakfa的设计思想
Kafka Kafka是最初由Linkedin公司开发,是一个分布式.支持分区的(partition).多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实 ...
Alink漫谈(一) : 从KMeans算法实现不同看Alink设计思想
Alink漫谈(一) : 从KMeans算法实现不同看Alink设计思想目录 Alink漫谈(一) : 从KMeans算法实现不同看Alink设计思想 0x00 摘要 0x01 Flink 是什么 ...
使用Unity3D的设计思想实现一个简单的C#赛车游戏场景
最近看了看一个C#游戏开发的公开课,在该公开课中使用面向对象思想与Unity3D游戏开发思想结合的方式,对一个简单的赛车游戏场景进行了实现.原本在C#中很方便地就可以完成的一个小场景,使用Unity3 ...
spring事务管理器设计思想（二）
上文见<spring事务管理器设计思想(一)> 对于第二个问题,涉及到事务的传播级别,定义如下: PROPAGATION_REQUIRED-- 如果当前没有事务,就新建一个事务.这是最常见 ...
掌握 Cinder 的设计思想 - 每天5分钟玩转 OpenStack（46）
上一节介绍了 Cinder 的架构,这节讨论 Cinder 个组件如何协同工作及其设计思想. 从 volume 创建流程看 cinder-* 子服务如何协同工作对于 Cinder 学习来说,Volu ...
javascript继承机制的设计思想(ryf)
我一直很难理解Javascript语言的继承机制. 它没有"子类"和"父类"的概念,也没有"类"(class)和"实例" ...
09A-独立按键消抖实验01——小梅哥FPGA设计思想与验证方法视频教程配套文档
芯航线--普利斯队长精心奉献实验目的: 1.复习状态机的设计思想并以此为基础实现按键消抖 2.单bit异步信号同步化以及边沿检测 3.在激励文件中学会使用随机数发生函数$random 4.仿真模 ...
08-FPGA状态机设计实例——小梅哥FPGA设计思想与验证方法视频教程配套文档
芯航线--普利斯队长精心奉献实验目的:1.学习状态机的相关概念 2.理解一段式.两段式以及三段式状态机的区别以及优缺点实验平台:芯航线FPGA核心板实验原理: 状态机全称是有限状态机(fin ...

随机推荐

内建函数（builtins）和functools
内建函数 Build-in Function,启动python解释器,输入dir(__builtins__), 可以看到很多python解释器启动后默认加载的属性和函数,这些函数称之为内建函数, 这些 ...
1.纯 CSS 创作一个按钮文字滑动特效 + 弹幕（残缺）
原文地址:1# 视频演示如何用纯 CSS 创作一个按钮文字滑动特效扩展后地址:https://scrimba.com/c/cJkzMfd HTML代码: <html> <head& ...
PadLeft 补零
补零 PadLeft -Caption.Length())+Caption; UnicodeString __fastcall StringOfChar(WideChar Ch, int Count) ...
使用JsonViewer来格式化json字符串
1. 在线转换 https://www.bejson.com/jsonviewernew/ ==>格式化 2. 使用notepad ++ 的jsonViewer插件下载地址 http://ww ...
多种聚类算法概述（BIRCH, DBSCAN， K-means， MEAN-SHIFT）
BIRCH:是一种使用树分类的算法,适用的范围是样本数大,特征数小的算法,因为特征数大的话,那么树模型结构就会要复杂很多 DBSCAN:基于概率密度的聚类方法:速度相对较慢,不适用于大型的数据,输入参 ...
TPCC-MySQL的安装与使用
Tpcc-mysql 是 percona 基于 tpcc 衍生出来的产品,专用于 mysql 基准测试,其源码放在 bazaar 上( Bazaar 是一个分布式的版本控制系统,采用 GPL 许可协议 ...
通过关闭 UseDNS和GSSAPIAuthentication选项加速 SSH登录
通常情况下我们在连接 OpenSSH服务器的时候假如 UseDNS选项是打开的话,服务器会先根据客户端的 IP地址进行 DNS PTR反向查询出客户端的主机名,然后根据查询出的客户端主机名进行DNS正 ...
linux——DNS服务器配置
讲课,请不要在课堂上查找文件,浏览器搜索,会感觉你很不上心,玩听众,一定提前做很多遍,模拟很多遍: 演讲,请务必准备好材料,考虑听众的感受,一定不要让外行人云里雾里,听不懂你在讲什么,那就尴尬了, D ...
Haskell语言学习笔记（67）Gtk2Hs
Gtk2Hs $ brew cask install xquartz $ brew install glib cairo gtk gettext fontconfig freetype $ expor ...
Hadoop 3.0.0-alpha1几个值得关注的特性
1.支持纠删码:意味着更灵活的存储策略,即经常使用的数据利用备份方式存储(3倍存储消耗),冷数据利用纠删码容错(1.4倍存储消耗,但会造成额外的IO及CPU消耗): 2.MapReduce任务支持本地 ...

Spark设计思想浅析

Spark设计思想浅析的更多相关文章

随机推荐

热门专题