为什么要使用Spark？

现有的hadoop生态系统中存在的问题

1）使用mapreduce进行批量离线分析；

2）使用hive进行历史数据的分析；

3）使用hbase进行实时数据的查询；

4）使用storm进行实时的流处理；

5）。。。。。。

导致：维护成本高、学习成本高

Spark的出现弥补了Hadoop生态系统中的缺陷，使用spark搞定”一切“

选用spark的原因

1、One stack to rule them all

　　1）应用于流式计算的Spark Streaming

　　2）应用于即席查询（Ad-hoc）的Spark SQL

　　3）应用于机器学习（数据挖掘）的MLlib

　　4）应用于图处理的GraphX

　　5）将R扩展成并行计算的SparkR

　　6）还有权衡精度和速度的查询引擎BlinkDB

2、速度快（运行/开发）

　　运行速度快的原因：

　　1）基于内存计算（从表象来看）

　 2）DAG（从深层次来看）：把执行过程做成一张图，再来优化

开发速度快：scala代码更优雅（但是还得学习scala啦。。。。。。）

Spark和MapReduce对比

1）调度：启动map和reduce任务需要时间

2）数据共享：从HDFS上读取数据执行，每次迭代均要重写将结果写回到HDFS上，后续的迭代如果需要前面运行的结果数据时需要再去HDFS上读取，以此类推，如果迭代N次。。。

3）输出结果数据多副本：数据需要额外的复制、序列化、磁盘/IO的开销

Spark和MapReduce的区别：迭代时数据写入内存，而不是HDFS上，进而减少大量的磁盘IO开销。

为什么要使用Spark？的更多相关文章

Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
Spark RDD 核心总结
摘要: 1.RDD的五大属性 1.1 partitions(分区) 1.2 partitioner(分区方法) 1.3 dependencies(依赖关系) 1.4 compute(获取分区迭代列表) ...
spark处理大规模语料库统计词汇
最近迷上了spark,写一个专门处理语料库生成词库的项目拿来练练手, github地址:https://github.com/LiuRoy/spark_splitter.代码实现参考wordmaker ...
Hive on Spark安装配置详解（都是坑啊）
个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介本文主要记录如何安装配置Hive on Sp ...
Spark踩坑记——数据库（Hbase+Mysql）
[TOC] 前言在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值.最近一个实时消费者处理任务,在使用spark streami ...
Spark踩坑记——初试
[TOC] Spark简介整体认识 Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apach ...
Spark读写Hbase的二种方式对比
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处一.传统方式这种方式就是常用的TableInputFormat和TableOutputForm ...
（资源整理）带你入门Spark
一.Spark简介: 以下是百度百科对Spark的介绍: Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方 ...
Spark的StandAlone模式原理和安装、Spark-on-YARN的理解
Spark是一个内存迭代式运算框架,通过RDD来描述数据从哪里来,数据用那个算子计算,计算完的数据保存到哪里,RDD之间的依赖关系.他只是一个运算框架,和storm一样只做运算,不做存储. Spark ...
（一）Spark简介-Java&Python版Spark
Spark简介视频教程: 1.优酷 2.YouTube 简介: Spark是加州大学伯克利分校AMP实验室,开发的通用内存并行计算框架.Spark在2013年6月进入Apache成为孵化项目,8个月 ...

随机推荐

Struts2 - Convertion
Struts2中的Convertion插件是比较有用,它可以简化很多操作,比如不需要一个一个Action在struts.xml中设置.当然,最有意义的是它与rest插件一起整合使用,可以完成web-s ...
【shell】if语句
单分支: #!/bin/bash rate=$(df -h|grep vg_andon-lv_root |awk '{print $5}'| cut -d "%" -f1) #ec ...
JavaScript中的继承模式总结
一.总结: //js中的几种继承 //原型链的问题,包含引用类型的原型属性会被实例共享,子类型无法给超类型传递参数 function SuperType() { this.colors = [&quo ...
gdb: multiple process debug
gdbserver自身不支持multiple process:如果你调试parent process时在子进程上下断点,子进程在运行到那个断点时就会SIGTRAP. 如果你要调试fork出来的子进程: ...
Spark MLlib知识点学习整理
MLlib的设计原理:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法.MLlib就是RDD上一系列可供调用的函数的集合. 操作步骤: 1.用字符串RDD来表示信息. 2.运行MLlib中的 ...
Hadoop系统架构
一.Hadoop系统架构图 Hadoop1.0与hadoop2.0架构对比图 YARN架构: ResourceManager –处理客户端请求 –启动/监控ApplicationMaster –监控N ...
All_从PO - INV - AP - SLA - GL重要数据表和接口程式（概念）
2014-07-09 Created By BaoXinjian
Form_通过Custom.pll新增菜单项（案例）
2014-05-31 Created By BaoXinjian
BestCoder Round #85 hdu5776 sum
sum 题意: 问题描述给定一个数列,求是否存在连续子列和为m的倍数,存在输出YES,否则输出NO 输入描述输入文件的第一行有一个正整数T,表示数据组数. 接下去有T组数据,每组数据的第一行有两个 ...
MST_prim
刚刚发了mst 的kruskal,现在再来一发,说一说prim咯. prim适用于稠密图. 与kruskal不同,prim是从一个点开始,不断加入新的点直至连通所有点. 讲讲prim的过程,我们假定有 ...

为什么要使用Spark？

为什么要使用Spark？的更多相关文章

随机推荐

热门专题