Spark应用场景以及与hadoop的比较

　　一、大数据的四大特征：

　　a.海量的数据规模（volume）

　　b.快速的数据流转和动态的数据体系（velocity）

　　c.多样的数据类型（variety）

　　d.巨大的数据价值（value）

　　二.Spark 和 Hadoop的不同

　　Spark是给予map reduce 算法实现的分布式计算，拥有Hadoop MapReduce所具有的有点，但不同与MaoReduce的是Job中间输出和结果可以保存在内存中，从而不用在读写HDFS，因此Spark能更好的适用于数据挖掘与机器学习等需要迭代的map reduce的算法

　　架构如图：　　

　　1. Spark的中间数据放到内存中，对于迭代运算效率比较高。

　　2. Spark比Hadoop更通用。

Spark提供的数据集操作类型有很多种，不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap,sample,groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型，他们把这些操作称为Transformations。同时还提供Count, collect, reduce,lookup, save等多种actions。

这些多种多样的数据集操作类型，给上层应用者提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的DataShuffle一种模式。用户可以命名，物化，控制中间结果的分区等。可以说编程模型比Hadoop更灵活。

Spark与Hadoop的结合

Spark可以直接对HDFS进行数据的读写，同样支持Sparkon YARN。Spark可以与MapReduce运行于同集群中，共享存储资源与计算，数据仓库Shark实现上借用Hive，几乎与Hive完全兼容。

Spark的适用场景

Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小

由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。

总的来说Spark的适用面比较广泛且比较通用。

运行模式

本地模式（对于开发来说非常方便）
Standalone模式
Mesoes模式
yarn模式

Spark核心概念

(RDD)弹性分布数据集

RDD是Spark的最基本抽象,是对分布式内存的抽象使用，实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西，它表示已被分区，不可变的并能够被并行操作的数据集合，不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的。RDD可以cache到内存中，每次对RDD数据集的操作之后的结果，都可以存放到内存中，下一个操作可以直接从内存中输入，省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说，效率提升比较大。

RDD的特点：

　　1. 它是在集群节点上的不可变的、已分区的集合对象。

　　2. 通过并行转换的方式来创建如(map, filter, join,etc)。

　　3. 失败自动重建。

　　4. 可以控制存储级别(内存、磁盘等)来进行重用。

　　5. 必须是可序列化的。

　　6. 是静态类型的。

RDD的生成有两种创建方式：

1、从Hadoop文件系统(或与Hadoop兼容的其它存储系统)输入(例如HDFS)创建。

2、从父RDD转换得到新RDD。

下面来看一从Hadoop文件系统生成RDD的方式，如：val file =spark.textFile("hdfs://...")，file变量就是RDD(实际是HadoopRDD实例)，生成的它的核心代码如下：

// SparkContext根据文件/目录及可选的分片数创建RDD, 这里我们可以看到Spark与Hadoop MapReduce很像

// 需要InputFormat, Key、Value的类型，其实Spark使用的Hadoop的InputFormat, Writable类型。

def textFile(path: String, minSplits: Int =defaultMinSplits): RDD[String] = {

hadoopFile(path,classOf[TextInputFormat], classOf[LongWritable],

classOf[Text], minSplits) .map(pair=> pair._2.toString) }

// 根据Hadoop配置，及InputFormat等创建HadoopRDD

new HadoopRDD(this, conf, inputFormatClass,keyClass, valueClass, minSplits)

对RDD进行计算时，RDD从HDFS读取数据时与Hadoop MapReduce几乎一样的：

reader =fmt.getRecordReader(split.inputSplit.value, conf, Reporter.NULL)

val key: K = reader.createKey()

val value: V = reader.createValue()

//使用Hadoop MapReduce的RecordReader读取数据，每个Key、Value对以元组返回。

override def getNext() = {

try {

finished = !reader.next(key, value)

} catch {

case eof: EOFException =>

finished = true

}

(key, value)

}

Spark应用场景以及与hadoop的比较的更多相关文章

Spark的误解-不仅spark是内存计算，hadoop也是内存计算
市面上有一些初学者的误解,他们拿spark和hadoop比较时就会说,Spark是内存计算,内存计算是spark的特性.请问在计算机领域,mysql,redis,ssh框架等等他们不是内存计算吗?依据 ...
spark 笔记 4：Apache Hadoop YARN: Yet Another Resource Negotiator
spark支持YARN做资源调度器,所以YARN的原理还是应该知道的:http://www.socc2013.org/home/program/a5-vavilapalli.pdf 但总体来说, ...
spark 应用场景1-求年龄平均值
原文引自:http://blog.csdn.net/fengzhimohan/article/details/78535143 该案例中,我们将假设我们需要统计一个 10 万人口的所有人的平均年龄,当 ...
Spark集群环境搭建——Hadoop集群环境搭建
Spark其实是Hadoop生态圈的一部分,需要用到Hadoop的HDFS.YARN等组件. 为了方便我们的使用,Spark官方已经为我们将Hadoop与scala组件集成到spark里的安装包,解压 ...
spark学习（2）--hadoop安装、配置
环境: 三台机器 ubuntu14.04 hadoop2.7.5 jdk-8u161-linux-x64.tar.gz (jdk1.8) 架构: machine101 :名称节点.数据节点.Secon ...
Spark的协同过滤.Vs.Hadoop MR
基于物品的协同过滤推荐算法案例在TDW Spark与MapReudce上的实现对比,相比于MapReduce,TDW Spark执行时间减少了66%,计算成本降低了40%. 原文链接:http://w ...
spark 应用场景2-身高统计
原文引自:http://blog.csdn.net/fengzhimohan/article/details/78564610 a. 案例描述本案例假设我们需要对某个省的人口 (10万) 性别还有身 ...
Spark2.1.0模型设计与基本架构（上）
随着近十年互联网的迅猛发展,越来越多的人融入了互联网——利用搜索引擎查询词条或问题:社交圈子从现实搬到了Facebook.Twitter.微信等社交平台上:女孩子们现在少了逛街,多了在各大电商平台上的 ...
[Big Data]从Hadoop到Spark的架构实践
摘要:本文则主要介绍TalkingData在大数据平台建设过程中,逐渐引入Spark,并且以Hadoop YARN和Spark为基础来构建移动大数据平台的过程. 当下,Spark已经在国内得到了广泛的 ...

随机推荐

cesium 学习(五) 加载场景模型
cesium 学习(五) 加载场景模型一.前言现在开始实际的看看效果,目前我所接触到基本上都是使用Cesium加载模型这个内容,以及在模型上进行操作.So,现在进行一些加载模型的学习,数据的话可以 ...
【MySQL】（四）表
本篇文章将从InnoDB存储引擎表的逻辑存储及实现开始进行介绍,然后将重点分析表的物理存储特征,即数据在表中是如何组织存放的.简单来说,表就是关于特定实体的数据集合,这也是关系型数据库模型的核心. 1 ...
TP 5.0 架构简介
TP 5.0 架构简介 thinkphp 5.0 为API开发而设计的的高性能框架,是与以往thinkphp5.0以下版本大不相同的新型框架,病对以颠覆和重构版本,采用全新的架构思想,引入了更多的P ...
docker原理介绍
内部分享的ppt,做的有些粗糙... 个人使用的总结,如有错误,多多指正!
Java网络和代理
Java网络和代理 1)简介在当今的网络环境中,特别是企业网络环境中,应用程序开发人员必须像系统管理员一样频繁地处理代理.在某些情况下,应用程序应该使用系统默认设置,在其他情况下,我们希望能够非常严 ...
js - 原生ajax访问后台读取数据并显示在页面上
1.前台调用ajax访问后台方法,并接收数据 <%@ page contentType="text/html;charset=UTF-8" language="ja ...
Pinyin4j简单使用教程
Pinyin4j是一个流行的Java库,支持中文字符和拼音之间的转换,拼音输出格式可以定制,在项目中经常会遇到需求用户输入汉字后转换为拼音的场景,这时候Pinyin4j就可以派上用场有自己私服的可以 ...
http的无状态
无状态协议是指协议对务处理没有记忆能力.缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大.另一方面,在服务器不需要先前信息时它的应答就较快. Http协议不 ...
HDU 多校第三场 Find the answer
这题是原来cf上的一道原题,不过对于有一些数据范围修改了,不过还是很好想的题意:给定一个长度为N的数组,对于数组中的每个位置,满足当前和小于M所需要去掉的最小代价分析:对于当前是否需要进行去掉一些 ...
iOS开发 8小时时差问题
今天调试遇到时间计算的问题,发现怎么算都会有差别,后来仔细观察,发现有8小时的时差…… 这篇文章解释的很好,用到了,因此记之. ios有关时间打印出来差8小时的问题

Spark应用场景以及与hadoop的比较

Spark应用场景以及与hadoop的比较的更多相关文章

随机推荐

热门专题