Spark 介绍

　　MapReduce给用户提供了简单的编程接口，用户只需要按照接口编写串行版本的代码，Hadoop框架会自动把程序运行到很多机器组成的集群上，并能处理某些机器在运行过程中出现故障的情况。然而，在MapReduce程序运行过程中，中间结果会写入磁盘，而且很多应用需要多个MapReduce任务来完成，任务之间的数据也要通过磁盘来交换，没有充分利用机器的内存。为此，美国加州大学伯克利分校的 AMPLab 设计实现了 Spark 计算框架（Zaharia，et al. 2012），充分利用现在机器的大内存资源，使得大数据计算的性能得到了进一步的提升。Spark 由 Scala 语言编写，Scala 是一种基于Java虚拟机的函数式编程语言，因此 Spark 提供的操作和 MapReduce 相比更加丰富和灵活。

　　Spark 设计的核心是一种叫做可靠分布式数据集（Resilient Distributed Dataset，RDD）的数据结构。一个 RDD 是一组数据项的集合，可以是普通的列表，也可以是由键值对构成的字典。在 Spark 中，一个 RDD 可以分布式的保存在多台机器上，也可以保存在磁盘上，也可以保存在内存中。对 RDD 的操作分为动作（action）和变换（transformation）。表 3.4 列出了 RDD 支持的常见操作。与 MapReduce 不同，Spark 的操作都是对 RDD 整体进行的，而不是对具体的每一个数据项。动作操作会直接生效，产生新的 RDD ，而变换操作的执行则是懒惰（lazy）的，操作会被记录下来，直到遇到下一个动作时才产生一个完整的执行计划。Spark 中的 RDD 可以由框架自动或由开发者人为地指定缓存在内存中，在内存足够的情况下对于某些应用可以获得比 MapReduce 快100倍以上的性能。

　　Spark 可以独立运行，也可以在 Hadoop 系统上运行，由 YARN 来调度。Spark 支持对 HDFS 的读/写，因此 MapReduce 程序可以很容易地改写成 Spark 程序，并在相同的环境下运行。

　　与 Hadoop 类似，Spark 也提供了一些组件，用于不同的应用场景。前面介绍的 Spark 核心组件被称为 Spark Core。Spark SQL 在 Spark Core 的基础上提供了新的数据抽象SchemaRDD，用于处理结构化和半结构化的数据，支持用SQL的语法对SchemaRDD进行查询。与Hive类似，Spark Streaming 提供了流式处理的功能，与Hadoop的Storm/S4类似。MLlib 是 Spark 上的机器学习算法库，提供了类似Mahout的功能。而GraphX则是 Spark的图计算框架，能够完成与Giraph相似的功能。

　　总地来说，目前Spark已经发展到比较成熟的阶段，其核心功能涵盖了Hadoop的大部分内容，并且可以在Hadoop生态系统内使用，具有性能上的优势，正在获得越来越广泛的应用。

Spark 介绍的更多相关文章

Spark 介绍（基于内存计算的大数据并行计算框架）
Spark 介绍(基于内存计算的大数据并行计算框架) Hadoop与Spark 行业广泛使用Hadoop来分析他们的数据集.原因是Hadoop框架基于一个简单的编程模型(MapReduce),它支持 ...
Spark介绍及安装部署
一.Spark介绍 1.1 Apache Spark Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架(没有数据存储).最初在2009年由加州大学伯克利分校的AMPLab开 ...
Spark记录-spark介绍
Apache Spark是一个集群计算设计的快速计算.它是建立在Hadoop MapReduce之上,它扩展了 MapReduce 模式,有效地使用更多类型的计算,其中包括交互式查询和流处理.这是一个 ...
大数据系列之并行计算引擎Spark介绍
相关博文:大数据系列之并行计算引擎Spark部署及应用 Spark: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎. Spark是UC Berkeley AMP lab ( ...
spark介绍
什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hado ...
Apache Spark介绍及集群搭建
简介 Spark是一个针对于大规模数据处理的统一分析引擎.其处理速度比MapReduce快很多.其特征有: 1.速度快 spark比mapreduce在内存中快100x,比mapreduce在磁盘中快 ...
spark介绍4（sparksql）ODBC（Windows）gc
(ODBC是open database connection开源数据连接) 在Windows控制面板的管理工具里面 GC(Garbage Collection):JAVA/.NET中的垃圾回收器 l ...
spark介绍3
spark介绍2
上述结果是 map 1 filter 1 map 2 filter 2 map 3 filter 3 map 4 filter 4 即说明是并行,且互不干扰,每个task运行到最后

随机推荐

了解计算机与操作系统发展阶段--Windows
Windows发展的30多年,其实就是整个计算机应用,从小众化向大众化消费领域,快速前行的30多年. 让我们来一起温故下Windows这么多年的发展历程,看看Windows,是如何在市场和技术这两种力 ...
django xadmin多对多字段过滤（含filter的反向查询）
要实现的功能: 继昨天实现拓展User模型使其得到其上级用户,今天要实现某些模型与用户多对多字段过滤功能. 功能描述:以用户指派功能为例,当前用户将文件指派给多个下级,修改前程序会将所有用户都显示出 ...
odoo qweb 记录
默认的打印功能修改,比如在动作中的打印功能: 继承抽象模型 models.AbstractModel 重写 _get_report_values class PayslipDetailsReportI ...
18-matlab知识点复习一
clc; clear; %% 输出 clc, clear; fprintf('%.19f', pi); fprintf('%d', 110); inf pi disp([1,3,5]) disp('a ...
MySql 游标定义时使用临时表
参考:Re: Temp Table in Select of a Cursor 方法一: delimiter $$ create procedure test_temp() begin drop te ...
Unity正交模式摄像机与屏幕适配的方法
public class CameraAuto : MonoBehaviour { float fDefaultRatio = 720.0f / 1280.0f;//预先设定屏幕大小1280*720 ...
IDEA开发环境中快捷键与系统 QQ等冲突的解决办法
1.快捷键冲突1:IDEA中,Ctrl+Alt+向左/右/箭头快捷键 (回到光标的前一个位置,回到光标的后一个位置).该快捷键与系统中旋转屏幕的快捷键冲突了,需要解决.为了保留IDEA的中快捷键,我就 ...
devexpress总结 accordionControl 加载panelcontrol 的快捷方式
先说保存: UserControl control; private void barButtonItem1_ItemClick(object sender, DevExpress.XtraBars. ...
c++11新标准for循环和lambda表达式
:first-child { margin-top: 0px; } .markdown-preview:not([data-use-github-style]) h1, .markdown-previ ...
day04-Servlet介绍(1)
1.servlet的概述 a.什么是servlet --servlet是javaWeb的三大组件(Listener,Filter)之一,他属于动态资源 --servlet的作用是(10086): 服务 ...

Spark 介绍

Spark 介绍的更多相关文章

随机推荐

热门专题