Spark为什么比Hadoop好？

（1）Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk

Hadoop每次计算先写磁盘，下次计算先从磁盘读，计算结果再写磁盘，如此往复。这对于迭代计算，是个噩梦

-----Spark为每个应用程序在worker上开启一个进程，而一个Job中的Task会在同一个线程池中运行，而Hadoop Map Reduce的计算模型是每个Task(Mapper或者Reducer）都是一个单独的进程，启动停止进程非常expensive，同时，进程间的数据共享也不能基于内存，只能是HDFS。
Spark任务调度模型

-----一级调度DAGScheduler
-----二级调度TaskScheduler

（2）MapReduce在数据shuffle之前需要进行排序，而spark不需要对所有场景进行排序，这也就加快了spark的计算速度

（3）spark中RDD之间维护了血缘关系，一旦某个RDD失败了，就能通过父类RDD自动重建，保证了容错性

（4）spark的代码量比mapreduce少的多

（5）Spark更通用，提供了transformation和action这两大类的多功能api，另外还有流式处理sparkstreaming模块、图计算等等，mapreduce只提供了map和reduce两种操作，流计算及其他的模块支持比较缺乏。

Spark为什么比Hadoop好？的更多相关文章

spark能否取代Hadoop?
大数据的浪潮风靡全球的时候,Spark火了.在国外 Yahoo!.Twitter.Intel.Amazon.Cloudera 等公司率先应用并推广 Spark 技术,在国内阿里巴巴.百度.淘宝.腾讯. ...
[转]Spark能否取代Hadoop？
大数据的浪潮风靡全球的时候,Spark火了.在国外 Yahoo!.Twitter.Intel.Amazon.Cloudera 等公司率先应用并推广 Spark 技术,在国内阿里巴巴.百度.淘宝.腾讯. ...
spark为什么比hadoop的mr要快？
1.前言 Spark是基于内存的计算,而Hadoop是基于磁盘的计算:Spark是一种内存计算技术. 但是事实上,不光Spark是内存计算,Hadoop其实也是内存计算. Spark和Hadoop的根 ...
Apache Spark 1.6 Hadoop 2.6 Mac下单机安装配置
一. 下载资料 1. JDK 1.6 + 2. Scala 2.10.4 3. Hadoop 2.6.4 4. Spark 1.6 二.预先安装 1. 安装JDK 2. 安装Scala 2.10.4 ...
spark加载hadoop本地库的时候出现不能加载的情况要怎么解决呢？
hadoop shell运行的时候不会报这个错误,因为我已经重新在64位机上编译了源文件,并把so文件复制到hadoop的native目录下,而且环境变量也设置正确了,所以hadoop本身没有问题. ...
WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable（spark加载hadoop本地库的时候出现不能加载的情况要怎么解决呢？）
原文地址: https://www.zhihu.com/question/23974067/answer/26267153 原文内容: 我64位机器,当时hadoop启动的时候出现这个问题是因为had ...
Spark性能超过Hadoop百倍
Spark在偷换概念,Hadoop跑硬盘,Spark跑内存,地球人都知道,内存的速度可是远超硬盘一个量级,超过100倍又有什么奇怪的.如果要比,咱们都拿硬盘来跑跑看!
[Spark] 00 - Install Hadoop & Spark
Hadoop安装 Java环境配置安装课程:安装配置配置手册:Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04[依照步骤完成配置] jsk安装使用的链接中第 ...
【Spark学习】Apache Spark for 第三方Hadoop分发版
Spark版本:1.1.1 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4137979.html

随机推荐

解决批处理命令执行完毕后自动关闭cmd窗口方法
问题描述: 日常开发工作中,为了节省多余操作导致浪费时间,我们经常会自己建一些批处理脚本文件(xx.bat),文件中包含我们需要执行的命令,有时候我们希望执行完毕后看一下执行的结果,但是窗口执行完毕后 ...
无废话MVC入门教程笔记
自学mvc,看了园子里李林峰写的李林峰写的无废话MVC入门教程笔记,现在有的平时忽略的或是不太清楚的点记下来 1,Html.DropDownList //服务端写法 @{ //下拉列表的值 List& ...
org.apache.commons.lang3包中的isEmpty和isBlank
主要为了区分一下empty和blank的用法,先看源码: isEmpty public static boolean isEmpty(CharSequence cs) { return cs == n ...
Data Base oracle简单使用及管理工具使用
oracle简单使用及管理工具使用一.常用工具: 1.sqldeveloper 2.navicat for oracle 3.PLSQL Developer 4.toad
移动端自适应个人理解与收集——rem
rem——更好的适配移动端.这个单位我一直想弄个究竟,今天终于看了个差不多.看了很多的博客.心中总算有自己的想法.(还有vh,vw这里我这个小白还没有弄明白就先不写了.) 1.rem可以在html,b ...
springcloud系列六整合security
一 Eureka注册中心认证: Eureka自带了一个管理界面,如果不加密,所有人都可以进行访问这个地址,这样安全问题就来了,所以需要对其进行加密认证: 那么该如何进行整合呢: 1 在注册中心模块添加 ...
Qt 学习之路 2（5）：自定义信号槽
Home / Qt 学习之路 2 / Qt 学习之路 2(5):自定义信号槽 Qt 学习之路 2(5):自定义信号槽豆子 2012年8月24日 Qt 学习之路 2 131条评论上一节我们详 ...
取消 windows2008 server 禁ping
windows 2008 server 默认是禁ping的,取消方法如下: 依次打开: 服务器管理器——配置——高级安全windows防火墙——入站规则找到“文件和打印机共享(回显请求-ICMPv4 ...
C语言中存储类别、链接与内存管理
第12章存储类别.链接和内存管理通过内存管理系统指定变量的作用域和生命周期,实现对程序的控制.合理使用内存是程序设计的一个要点. 12.1 存储类别 C提供了多种不同的模型和存储类别,在内存中 ...
Kibana源码启动报错记录--ENOSPC
执行该命令可解决:echo fs.inotify.max_user_watches=524288 | sudo tee -a /etc/sysctl.conf && sudo sysc ...

Spark为什么比Hadoop好？

Spark为什么比Hadoop好？的更多相关文章

随机推荐

热门专题