Spark入门（1-1）什么是spark，spark和hadoop

一、Spark是什么？

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎，可用来构建大型的、低延迟的数据分析应用程序。

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，

Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，
Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。

与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

二、Spark和Hadoop的关系

Spark是Hadoop MapReduce的一个替代品而不是Hadoop的替代品，其意图并非是替代Hadoop，而是为了提供一个管理不同的大数据用例和需求的全面且统一的解决方案

可以在 Hadoop 文件系统中并行运行,通过名为 Mesos 的第三方集群框架可以支持此行为。

1、Hadoop实现了分布式存储，并提供了MR算法

但Hadoop的MR算法偏底层，复杂数据处理过程中反复落盘，分步执行，降低了性能。

为了处理不同的大数据用例，还需要集成多种不同的工具（如用于机器学习的Mahout和流数据处理的Storm）

2、Spark只实现分布式计算，外接各种分布式存储，包括hadoop。

允许程序开发者使用有向无环图（DAG）开发复杂的多步数据管道，支持跨有向无环图的内存数据共享，以便不同的作业可以共同处理同一个数据

运行在现有的Hadoop分布式文件系统基础之上（HDFS）提供额外的增强功能，支持Hadoop v1集群或Hadoop v2 YARN集群甚至Apache Mesos。

Spark中间运算结果可以不落盘，同样复杂的业务逻辑处理更快一些。

Spark可以作为MapReduce的替代，架构在hdfs上。

3、Spark可以做流式处理

如果你需要对流数据进行分析，比如那些来自于工厂的传感器收集回来的数据，又或者说你的应用是需要多重数据处理的，那么你也许更应该使用Spark进行处理。

大部分机器学习算法都是需要多重数据处理的。

此外，通常会用到Spark的应用场景有以下方面：实时的市场活动，在线产品推荐，网络安全分析，机器日记监控等。

三、Spark的优点：

1、Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理。

2、Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍，甚至能够将应用在磁盘上的运行速度提升10倍。

3、Spark让开发者可以快速的用Java、Scala或Python编写程序。它本身自带了一个超过80个高阶操作符集合。而且还可以用它在shell中以交互式地查询数据。

4、Spark 是一个通用引擎，可用它来完成各种各样的运算，包括 SQL 查询、文本处理、流数据，机器学习和图表数据处理等，而在 Spark 出现之前，我们一般需要学习各种各样的引擎来分别处理这些需求。

Spark 提供了大量的库，包括SQL、DataFrames、MLlib、GraphX、Spark Streaming。开发者可以在同一个应用程序中无缝组合使用这些库。

开发者可以在一个数据管道用例中单独使用某一能力或者将这些能力结合在一起使用。

5、Spark 支持 Hadoop YARN，Apache Mesos，及其自带的独立集群管理器

Spark入门（1-1）什么是spark，spark和hadoop的更多相关文章

Spark修炼之道（进阶篇）——Spark入门到精通：第九节 Spark SQL执行流程解析
1.总体执行流程使用下列代码对SparkSQL流程进行分析.让大家明确LogicalPlan的几种状态,理解SparkSQL总体执行流程 // sc is an existing SparkCont ...
Spark入门实战系列--3.Spark编程模型（上）--编程模型及SparkShell实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spar ...
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
【CDN+】 Spark入门---Handoop 中的MapReduce计算模型
前言项目中运用了Spark进行Kafka集群下面的数据消费,本文作为一个Spark入门文章/笔记,介绍下Spark基本概念以及MapReduce模型 Spark的基本概念: 官网: http://s ...
Spark 入门
Spark 入门目录一. 1. 2. 3. 二. 三. 1. 2. 3. (1) (2) (3) 4. 5. 四. 1. 2. 3. 4. 5. 五. Spark Shell使用 ...
倾情大奉送--Spark入门实战系列
这一两年Spark技术很火,自己也凑热闹,反复的试验.研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家.这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介.编译.部署,再到编 ...
Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Tachyon介绍 1.1 Tachyon简介随着实时计算的需求日益增多,分布式内存计算 ...
使用scala开发spark入门总结
使用scala开发spark入门总结一.spark简单介绍关于spark的介绍网上有很多,可以自行百度和google,这里只做简单介绍.推荐简单介绍连接:http://blog.jobbole.c ...
Spark入门实战系列--1.Spark及其生态圈简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .简介 1.1 Spark简介年6月进入Apache成为孵化项目,8个月后成为Apache ...

随机推荐

MSIL实用指南-局部变量的声明、保存和加载
这一篇讲解方法内的局部变量是怎么声明.怎样保存.怎样加载的. 声明局部变量声明用ILGenerator的DeclareLocal方法,参数是局部变量的数据类型,得到一个局部变量对应的创建类LocalB ...
call是什么？一次说个明白
首先简单粗暴的从例子中看概念 var a = {}; function foo() { this.name = "hello"; this.age = 100 } foo.call ...
【Unity与23种设计模式】原型模式（Prototype）
GoF中定义: "使用原型对象来产生指定类的对象,所以产生对象时,是使用复制原型对象来完成." Unity中开发者可以组装游戏对象它可以包括复杂的组件组装好了之后,就可以将其 ...
php 图片合成时文字颜色丢失
最近在做图片合成的时候无意间发现文字颜色丢失了,仔细找了以后才发现原来是因为图片格式的原因当图片是png图片时文字的颜色就变成了白色的,So.........去你妹的png,用jpg吧! $dest ...
【前端单元测试入门04】Karma
Karma 官方介绍 A simple tool that allows you to execute JavaScript code in multiple real browsers. 即一个允许 ...
sudo用法
sudo的用法 xxx is not in the sudoers file.This incident will be reported.的解决方法 1.切换到root用户下,怎么切换就不 ...
在oracle中，group by后将字符拼接，以及自定义排序
1.在oracle中,group by后将字符拼接.任务:在学生表中,有studentid和subject两个字段.要求对studentid进行group by分组,并将所选科目拼接在一起.oracl ...
Vue之九数据劫持实现MVVM的数据双向绑定
vue是通过数据劫持的方式来做数据绑定的,其中最核心的方法便是通过Object.defineProperty()来实现对属性的劫持,达到监听数据变动的目的. 如果不熟悉defineProperty,猛 ...
AngularJS复习-----内置过滤器和内置服务
AngularJS中的内置服务(共30多个): $http 发送http请求,主要用于进行异步数据请求的功能实现,这个服务主要封装了XMLHttpRequest对象和JSONP数据访问模式来完成远程请 ...
单元测试er——为什么真的真的要写单元测试
优点为什么很多技术或者知识要说优点?因为有些道理看着很简单,大家表面上都觉得对,但是做的时候又不去做或者做不到.其中有一个很重要原因是骨子里或者潜意识并没有真实觉得这是对的,一旦想去做的时候同时会冒 ...

Spark入门（1-1）什么是spark，spark和hadoop

1、Hadoop实现了分布式存储，并提供了MR算法

Spark入门（1-1）什么是spark，spark和hadoop的更多相关文章

随机推荐

热门专题