Spark及其应用场景初探

最近老大让用Spark做一个ETL项目，搭建了一套只有三个结点Standalone模式的Spark集群做测试，基础数据量大概8000W左右。看了官方文档，Spark确实在Map-Reduce上提升了很多，可是官方明确提出了在Interactive Data 方面性能提升最大。但是做ETL的数据之间是平行结构，没有任何交互，数据处理完直接就推送走了，也不用做任何缓存，因此完全体现不出来Spark的优势。具体可以用下面这个例子来说，

假设Hadoop集群中有一个文件，每行有一个随机数，我们现在需要计算这些数据的方差 (假设中间过程不会溢出)
方差公式

那么计算过程可以表示为

var file = sc.textFile("hdfs://dataset.txt")

file.persist()

var length = file.count()

var sum = file.reduce((a, b) => a+b)

var sqsum = file.map(line => line * line).reduce( (a,b) => a+b )

var variance = sqsum / length / - sum * sum / length / length

这个过程很简单，但是可以体现出这个交互的过程。file 是一个RDD，这个例子有且仅有一个RDD。Spark中对RDD的操作有两类Transformation和Action，Transformation是一个延时的过程，只有当具体的Action应用时，才会对具体的数据做运算。Spark的容错机制也正是根据了Transformation对RDD进行了Lineage的推算，即使在某个结点在某种状态下数据丢失，也可以根据记录的Transformations推算出当前请求的RDD数据集。扯远了，还是看上面这个例子，

var file = sc.textFile("hdfs://dataset.txt")

这里不会立即去集群读取这个文件，而是会延迟到后面具体的Action例如count()时，才会遍历文件。获取所有数据的长度，需要读取一次dataset.txt这个文件，集群中遍历这个文件虽然很快，但是下一次在求和与平方和时，又需要遍历两次次这个文件，那么差别就来了

map - reduce 程序是需要三次IO，集群需要从HDFS上三次获取这个文件进行遍历
Spark 能够将 file 这个RDD缓存在集群的共享内存中，那么在处理时实际上只有一次IO，另外两次遍历直接从内存读取

这个例子很简单，那么我们在做数据挖掘或者迭代运算时，这样的交互行为会很多，需要缓存的中间数据集也会有很多，那么在map-reduce过程中，由于没有内存缓存的机制，只有将中间状态缓存到HDFS中，而Spark通过缓存避免了这些IO，效率就提升了。

参考文档

[1] programming-guide
[2] An Architecture for Fast and General Data Processing on Large Clusters

Spark及其应用场景初探的更多相关文章

Spark job server原理初探
Spark job server是一个基于Spark的服务系统,提供了管理SparkJob,context,jar的RestFul接口. 专注标注原文链接 http://www.cnblogs.com ...
使用spark 计算netflow数据初探
spark是一个高性能的并发的计算平台,而netflow是一种一般来说数量级很大的数据.本文记录初步使用spark 计算netflow数据的大致过程. 本文包括以下过程: 1. spark环境的搭建 ...
Spark应用场景以及与hadoop的比较
一.大数据的四大特征: a.海量的数据规模(volume) b.快速的数据流转和动态的数据体系(velocity) c.多样的数据类型(variety) d.巨大的数据价值(value) 二.Spar ...
【转载】Spark性能优化指南——高级篇
前言数据倾斜调优调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一:使用Hive ETL预处理数 ...
Spark入门实战系列--1.Spark及其生态圈简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .简介 1.1 Spark简介年6月进入Apache成为孵化项目,8个月后成为Apache ...
Spark：一个高效的分布式计算系统
概述什么是Spark ◆ Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥 ...
大数据计算平台Spark内核解读
1.Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目.随着 Spark在大数据计算领域的暂露头角,越来越多 ...
【转】【技术博客】Spark性能优化指南——高级篇
http://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651745207&idx=1&sn=3d70d59cede236e ...
Hadoop和Spark的异同
谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生.但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同. 解决问题的 ...

随机推荐

html下select追加元素，IE下错误
var selectCtr=window.document.getElementById("lesson_up"); selectCtr.add(opt,selectCtr.opt ...
深入理解Java对象的序列化与反序列化的应用
当两个进程在进行远程通信时,彼此可以发送各种类型的数据.无论是何种类型的数据,都会以二进制序列的形式在网络上传送.发送方需要把这个Java对象转换为字节序列,才能在网络上传送:接收方则需要把字节序列再 ...
java线程安全理解
java线程安全理解如果你的代码所在的进程中有多个线程在同时运行,而这些线程可能会同时运行这段代码.如果每次运行结果和单线程运行的结果是一样的,而且其他的变量的值也和预期的是一样的,就是线程安全的. ...
An AnnotationConfiguration instance is required to use
An AnnotationConfiguration instance is required to use <mapping class="jebe7282/study/hibern ...
Mac下配置idk
Mac下配置java #以下进入啰嗦模式演示添加jdk7 #下载jdk7的mac版 #官网下载地址http://www.oracle.com/technetwork/java/javase/downl ...
openfire源码分析
启动流程 Socket接口 Socket通信使用Mina框架实现,是XMPP协议的处理入口,具体为: 消息接收后由不同的节处理器处理: StanzaHandler基础消息类型,之后进行消息路由: 最后 ...
漫游Kafka设计篇之消息传输的事务定义
之前讨论了consumer和producer是怎么工作的,现在来讨论一下数据传输方面.数据传输的事务定义通常有以下三种级别: 最多一次: 消息不会被重复发送,最多被传输一次,但也有可能一次不传输. 最 ...
Asp.Net保存session的三种方法
C#中保存Session的三种方法及Web.Config设置 1.保存session到sql server,需要指定Sql Server服务器,这种方法因为要读写数据库最慢 <sessionSt ...
codevs 1228 苹果树
dfs序+线段树 #include<iostream> #include<cstdio> #include<cstring> #include<algorit ...
MySQL连接问题浅析
MySQL的客户端,无论是PHP或者Java,都会发起多个连接来提高系统的吞吐量.在云里面的服务器,因为一些设计和实现上的不同,有一些问题被放大了,同时也带了一些新的问题. 连接的超时时间在Azur ...

Spark及其应用场景初探

参考文档

Spark及其应用场景初探的更多相关文章

随机推荐

热门专题