Hadoop 与 Spark 对比

Hadoop进行海量数据分析，MR频繁落地，IO操作，计算时间就拉长。由于这种设计影响，计算过程中不能进行迭代计算。造成网络节点数据传输。

Spark从理念上就开始改变。应用scala特点解决上面的核心问题，提升处理速度。Spark基于内存来实现，内存访问效率比磁盘访问效率高非常多。Spark不能完全基于内存，（所有要加工的数据都放入内存），部分数据也需要落地。一部分数据放在内存中，进行计算，计算中间结果有些不落地，直接放在内存，以val静态常量实现，新的RDD方式来存在。可以实现迭代式计算。

Spark比Hadoop性能，如果基于内存高100倍，如果基于磁盘高10倍。

Spark成也内存，败也内存

Spark基于内存，所以性能自然提高，和Hadoop相比，提高100倍。Spark磁盘方式，比Hadoop快10倍。

Spark对内存要求过多，需要大量内存，内存相比磁盘贵，企业采购压力。硬件要比hadoop贵很多。

Spark基于内存，很容易内存溢出。要么增加硬件来解决。增加cache/persist，增加检查点。把内存中的内容部分放入到磁盘中。性能稍打折扣。

Spark设计非常优秀，基于内存，随着硬件、内存越来越快，越来越廉价。最终Spark会超越Hadoop。Hadoop3.0引入把部分中间结果数据不落地，直接放在内存中。Hive新版提升29倍。

在实际中使用情况：

Hadoop使用比较多，和Yarn整合比较多。

Spark很多公司已经开始采用，逐步替代掉Hadoop作业，MR/hive被替代掉

在企业中Yarn集群中既有老的Hadoop作业，也有新的Spark作业。

Hadoop海量数据的离线分析

Spark海量数据的实时分析

Hadoop的问题

1） MR过程，Map过程做完要把中间结果数据落地，Reduce要继续加工数据，把中间结果数据读出，继续计算。这个过程中频繁IO操作。导致Hadoop处理速度严重受影响。

2）分布式环境，网络传输，导致Hadoop处理速度严重受影响。

3） MR过程非迭代运行，导致Hadoop处理速度严重受影响。

这个3条能否改善？

1） Hadoop设计非常谨慎，因为当时历史条件（在486稳定运行+网络拨号512k）随着社会发展，硬件日新月异（电脑+网络）Spark设计基于内存。中间过程不落地，后续需要继续使用中间结果，直接拿。性能提升100倍

2）网络自身硬件速度得到飞速提升，spark直接依赖这样稳定网络环境

3）整个处理过程是迭代运行。利用内存中中间结果，使用高级函数方式（函数式编程）实现了内存中迭代计算。

Spark比Hadoop快的原因：

1）基于内存，中间结果不落地，val

2）迭代式运行

Hadoop生态圈（MR、hive、HDFS、hbase、yarn）

Spark生态圈（SparkSQL、HDFS、Tachyon内存列、yarn/mesos）

超越：SparkSQL替代掉MR和hive

依赖：HDFS和yarn

Spark是Hadoop升级，互相补充。部分替代。Hadoop主要应用于离线处理，Spark相对实时处理（秒级别），Storm真正实时（亚秒级别）

Hadoop 与 Spark 对比的更多相关文章

hadoop之Spark强有力竞争者Flink,Spark与Flink：对比与分析
hadoop之Spark强有力竞争者Flink,Spark与Flink:对比与分析 Spark是一种快速.通用的计算集群系统,Spark提出的最主要抽象概念是弹性分布式数据集(RDD),它是一个元素集 ...
PageRank在Hadoop和spark下的实现以及对比
关于PageRank的地位,不必多说. 主要思想:对于每个网页,用户都有可能点击网页上的某个链接,例如 A:B,C,D B:A,D C:AD:B,C 由这个我们可以得到网页的转移矩阵 A ...
Hadoop vs Spark性能对比
http://www.cnblogs.com/jerrylead/archive/2012/08/13/2636149.html Hadoop vs Spark性能对比基于Spark-0.4和Had ...
深度:Hadoop对Spark五大维度正面比拼报告！
每年,市场上都会出现种种不同的数据管理规模.类型与速度表现的分布式系统.在这些系统中,Spark和hadoop是获得最大关注的两个.然而该怎么判断哪一款适合你? 如果想批处理流量数据,并将其导入HDF ...
剖析Hadoop和Spark的Shuffle过程差异
一.前言对于基于MapReduce编程范式的分布式计算来说,本质上而言,就是在计算数据的交.并.差.聚合.排序等过程.而分布式计算分而治之的思想,让每个节点只计算部分数据,也就是只处理一个分片,那么 ...
剖析Hadoop和Spark的Shuffle过程差异（一）
一.前言对于基于MapReduce编程范式的分布式计算来说,本质上而言,就是在计算数据的交.并.差.聚合.排序等过程.而分布式计算分而治之的思想,让每个节点只计算部分数据,也就是只处理一个分片,那么 ...
大数据hadoop与spark的区别
学习hadoop已经有很长一段时间了,好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址,因为还是在学习阶段就下载了一个三节点的学习版玩一下.在研究.学习hadoop的朋友可以去找一下看看 ...
[转帖]大数据hadoop与spark的区别
大数据hadoop与spark的区别 https://www.cnblogs.com/adnb34g/p/9233906.html Posted on 2018-06-27 14:43 左手中倒影阅 ...
深度:Hadoop对Spark五大维度正面比拼！
每年,市场上都会出现种种不同的数据管理规模.类型与速度表现的分布式系统.在这些系统中,Spark和hadoop是获得最大关注的两个.然而该怎么判断哪一款适合你? 如果想批处理流量数据,并将其导入HDF ...

随机推荐

【centos】 error: command 'gcc' failed with exit status 1 错误
转载自 :http://blog.csdn.net/fenglifeng1987/article/details/38057193 用安装Python模块出现error: command 'gcc' ...
vs2010用iis5作为调试服务器从而允许非本机电脑访问项目网站
工作的时候经常遇见这2种情况 1,和设备端的同事调程序,但是他们却不能访问vs自带的web服务器 2,写好的程序在vs中运行一点问题都没有,一发布到iis就问题一大堆后来在终于有了一个比较好的解决办 ...
memset函数及其用法，C语言memset函数详解
在前面不止一次说过,定义变量时一定要进行初始化,尤其是数组和结构体这种占用内存大的数据结构.在使用数组的时候经常因为没有初始化而产生“烫烫烫烫烫烫”这样的野值,俗称“乱码”. 每种类型的变量都有各自的 ...
服务器搭建SVN
linux服务器搭建SVN https://blog.csdn.net/itbird58/article/details/80445521
JAVA javac
{ 用法: javac <options> <source files>其中, 可能的选项包括: -g 生成所有调试信息 - ...
bzoj1011题解
[解题思路] 这题解法很多,我也不知道标算是什么..这简直就是大放水啊.. 网上流传的乱搞法,对于小范围内(假设为[1,l]∩N)暴力,大范围内估算. 我写这题时还是写P的?!..但是我看不懂我当时写 ...
NX二次开发-UFUN编辑图层类别描述UF_LAYER_edit_category_descr
1 NX11+VS2013 2 3 #include <uf.h> 4 #include <uf_layer.h> 5 6 7 UF_initialize(); 8 9 //创 ...
Linux命令(2)：cat
cat命令是一个文本连接和查看的命令,用于文件的输出显示. 三大功能一次显示整个文件. $ cat filename 从键盘创建一个文件.只能创建新文件,不能编辑已有文件. $ cat > f ...
如何再windows里面装Tableau Server
1.进入网页http://www.tableau.com/support/esdalt下载所需要的软件. 我的是正版下载的是 2.点击tableauServer-64bit-10....这个软件一直 ...
（转）poi操作Excel，各种具体操作和解释
原文地址http://hi.baidu.com/j_changhong/item/981fa58d05fa755926ebd96b注原文是3.6 此文是3.9 java读取excel文件的顺序是: E ...

Hadoop 与 Spark 对比

Hadoop 与 Spark 对比的更多相关文章

随机推荐

热门专题