Spark应用场景以及与hadoop的比较

　　一、大数据的四大特征：

　　a.海量的数据规模（volume）

　　b.快速的数据流转和动态的数据体系（velocity）

　　c.多样的数据类型（variety）

　　d.巨大的数据价值（value）

　　二.Spark 和 Hadoop的不同

　　Spark是给予map reduce 算法实现的分布式计算，拥有Hadoop MapReduce所具有的有点，但不同与MaoReduce的是Job中间输出和结果可以保存在内存中，从而不用在读写HDFS，因此Spark能更好的适用于数据挖掘与机器学习等需要迭代的map reduce的算法

　　架构如图：　　

　　1. Spark的中间数据放到内存中，对于迭代运算效率比较高。

　　2. Spark比Hadoop更通用。

Spark提供的数据集操作类型有很多种，不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap,sample,groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型，他们把这些操作称为Transformations。同时还提供Count, collect, reduce,lookup, save等多种actions。

这些多种多样的数据集操作类型，给上层应用者提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的DataShuffle一种模式。用户可以命名，物化，控制中间结果的分区等。可以说编程模型比Hadoop更灵活。

Spark与Hadoop的结合

Spark可以直接对HDFS进行数据的读写，同样支持Sparkon YARN。Spark可以与MapReduce运行于同集群中，共享存储资源与计算，数据仓库Shark实现上借用Hive，几乎与Hive完全兼容。

Spark的适用场景

Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小

由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。

总的来说Spark的适用面比较广泛且比较通用。

运行模式

本地模式（对于开发来说非常方便）
Standalone模式
Mesoes模式
yarn模式

Spark核心概念

(RDD)弹性分布数据集

RDD是Spark的最基本抽象,是对分布式内存的抽象使用，实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西，它表示已被分区，不可变的并能够被并行操作的数据集合，不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的。RDD可以cache到内存中，每次对RDD数据集的操作之后的结果，都可以存放到内存中，下一个操作可以直接从内存中输入，省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说，效率提升比较大。

RDD的特点：

　　1. 它是在集群节点上的不可变的、已分区的集合对象。

　　2. 通过并行转换的方式来创建如(map, filter, join,etc)。

　　3. 失败自动重建。

　　4. 可以控制存储级别(内存、磁盘等)来进行重用。

　　5. 必须是可序列化的。

　　6. 是静态类型的。

RDD的生成有两种创建方式：

1、从Hadoop文件系统(或与Hadoop兼容的其它存储系统)输入(例如HDFS)创建。

2、从父RDD转换得到新RDD。

下面来看一从Hadoop文件系统生成RDD的方式，如：val file =spark.textFile("hdfs://...")，file变量就是RDD(实际是HadoopRDD实例)，生成的它的核心代码如下：

// SparkContext根据文件/目录及可选的分片数创建RDD, 这里我们可以看到Spark与Hadoop MapReduce很像

// 需要InputFormat, Key、Value的类型，其实Spark使用的Hadoop的InputFormat, Writable类型。

def textFile(path: String, minSplits: Int =defaultMinSplits): RDD[String] = {

hadoopFile(path,classOf[TextInputFormat], classOf[LongWritable],

classOf[Text], minSplits) .map(pair=> pair._2.toString) }

// 根据Hadoop配置，及InputFormat等创建HadoopRDD

new HadoopRDD(this, conf, inputFormatClass,keyClass, valueClass, minSplits)

对RDD进行计算时，RDD从HDFS读取数据时与Hadoop MapReduce几乎一样的：

reader =fmt.getRecordReader(split.inputSplit.value, conf, Reporter.NULL)

val key: K = reader.createKey()

val value: V = reader.createValue()

//使用Hadoop MapReduce的RecordReader读取数据，每个Key、Value对以元组返回。

override def getNext() = {

try {

finished = !reader.next(key, value)

} catch {

case eof: EOFException =>

finished = true

}

(key, value)

}

Spark应用场景以及与hadoop的比较的更多相关文章

Spark的误解-不仅spark是内存计算，hadoop也是内存计算
市面上有一些初学者的误解,他们拿spark和hadoop比较时就会说,Spark是内存计算,内存计算是spark的特性.请问在计算机领域,mysql,redis,ssh框架等等他们不是内存计算吗?依据 ...
spark 笔记 4：Apache Hadoop YARN: Yet Another Resource Negotiator
spark支持YARN做资源调度器,所以YARN的原理还是应该知道的:http://www.socc2013.org/home/program/a5-vavilapalli.pdf 但总体来说, ...
spark 应用场景1-求年龄平均值
原文引自:http://blog.csdn.net/fengzhimohan/article/details/78535143 该案例中,我们将假设我们需要统计一个 10 万人口的所有人的平均年龄,当 ...
Spark集群环境搭建——Hadoop集群环境搭建
Spark其实是Hadoop生态圈的一部分,需要用到Hadoop的HDFS.YARN等组件. 为了方便我们的使用,Spark官方已经为我们将Hadoop与scala组件集成到spark里的安装包,解压 ...
spark学习（2）--hadoop安装、配置
环境: 三台机器 ubuntu14.04 hadoop2.7.5 jdk-8u161-linux-x64.tar.gz (jdk1.8) 架构: machine101 :名称节点.数据节点.Secon ...
Spark的协同过滤.Vs.Hadoop MR
基于物品的协同过滤推荐算法案例在TDW Spark与MapReudce上的实现对比,相比于MapReduce,TDW Spark执行时间减少了66%,计算成本降低了40%. 原文链接:http://w ...
spark 应用场景2-身高统计
原文引自:http://blog.csdn.net/fengzhimohan/article/details/78564610 a. 案例描述本案例假设我们需要对某个省的人口 (10万) 性别还有身 ...
Spark2.1.0模型设计与基本架构（上）
随着近十年互联网的迅猛发展,越来越多的人融入了互联网——利用搜索引擎查询词条或问题:社交圈子从现实搬到了Facebook.Twitter.微信等社交平台上:女孩子们现在少了逛街,多了在各大电商平台上的 ...
[Big Data]从Hadoop到Spark的架构实践
摘要:本文则主要介绍TalkingData在大数据平台建设过程中,逐渐引入Spark,并且以Hadoop YARN和Spark为基础来构建移动大数据平台的过程. 当下,Spark已经在国内得到了广泛的 ...

随机推荐

Android使用webService(发送xml数据的方式，不使用jar包)
Android使用webService可以用ksoap2.jar包来使用.但是我觉得代码不好理解,而且记不住. 所以我查询了好多资料,以及自己的理解.可以用代码发送http请求(发送xml数据)来访问 ...
从草图绘制到实施交付：优秀API设计完整流程
设计好的API是一项繁复的工作,但是优秀的设计是可以通过人为规划实现的,在本文中,我们将研究什么是好的设计以及如何在开发过程中实现它,还将介绍API设计的三个重要阶段:草图绘制,原型设计和交付实施,最 ...
Java--UTF-8
UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码.由Ken Thompson于1992年创建.现在已经标准化为 ...
Python装饰器实现类Java注解功能
最近想用Python写一个简单生成器,类似指定类型和范围,返回指定列表: 比如想要 0 ~ 3 的整数,则我只需要指定: 最小:0, 最大:3, 步长:1 则返回一个 [0,1,2,3] 的列表 ...
仿LookUpEdit多列模糊搜索，功能比GridLookUpEdit强大，比SearhLookUpEdit方便
先上效果图: 控件调用示例:(devexpress使用了16.2.6.0版本,可以根据实际需要进行版本转换) using System; using System.Collections.Generi ...
计算机网络中IP地址和MAC地址
计算机网络中的网络地址有I P 地址和物理地址之分,对于主机间的通信时,它们的作用也不一样 . l I P 地址为了保证 I n t e r n e t 网上主机通信时能够相互识别 ,不引 ...
cogs 264. 数列操作单点修改区间查询
http://cogs.pro:8080/cogs/problem/problem.php?pid=pyNimmVeq 264. 数列操作 ★☆ 输入文件:shulie.in 输出文件:shu ...
php 生成随机字符串，数字，大写字母，小写字母，特殊字符可以随意组合
* 生成随机字符串* @param int $length 要生成的随机字符串长度* @param string $type 随机码类型:0,数字+大小写字母:1,数字:2, ...
【Java例题】8.1手工编写加法器的可视化程序
1. 手工编写加法器的可视化程序. 一个Frame窗体容器,布局为null,三个TextField组件,一个Button组件. Button组件上添加ActionEvent事件监听器ActionLis ...
逆向破解之160个CrackMe —— 001
CrackMe —— 001 160 CrackMe 是比较适合新手学习逆向破解的CrackMe的一个集合一共160个待逆向破解的程序 CrackMe:它们都是一些公开给别人尝试破解的小程序,制作 c ...

Spark应用场景以及与hadoop的比较

Spark应用场景以及与hadoop的比较的更多相关文章

随机推荐

热门专题