spark为什么比mapreduce运行速度快很多

比较重要的2个原因

– 1、基于内存

mapreduce任务每次都会把结果数据落地到磁盘，后续有其他的job需要依赖于前面job的输出结果，这里就需要进行大量的磁盘io操作，获取前面job的输出结果。性能非常低

　　　　例如：select name,age from ( select * from user where address = 'beijing')
　　　　　　------------job2-------- ------------------job1-----------------------
　　　　spark任务的输出结果可以保存在内存中，后续有其他的job需要依赖于前面job的输出结果，这里就只需要直接从内存中获取得到，大大减少磁盘io操作。

　　　　spark框架适合于迭代计算
　　　　job1----->job2----->job3----->job4----->job5----->jobN......

–
2、进程和线程

mapreduce任务它是以进程的方式运行在yarn集群中，比如说一个mapreduce任务有100个MapTask,后期需要运行这100个task，就需要启动100个进程。
　　　　spark任务它是以线程的方式运行在worker节点的executor进程中，比如说一个spark任务有100个MapTask,这里后期需要运行100个线程就可以了。
　　　　可以这样极端一点：只需要启动一个进程，在一个进程中运行100个线程就可以了.开启一个进程比开启一个线程需要的时间和资源调度肯定是不一样,开启一个进程需要的时间远远大于线程.

spark为什么比mapreduce运行速度快很多的更多相关文章

mapreduce运行机制
详见:http://blog.yemou.net/article/query/info/tytfjhfascvhzxcyt243 谈mapreduce运行机制,可以从很多不同的角度来描述,比如说从ma ...
Spark记录-实例和运行在Yarn
#运行实例 #./bin/run-example SparkPi 10 #./bin/spark-shell --master local[2] #./bin/pyspark --master l ...
MapReduce运行原理
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算.MapReduce采用”分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各 ...
Spark internal - 多样化的运行模式（下）
Spark的各种运行模式虽然启动方式,运行位置,调度手段有所不同,但它们所要完成的任务基本都是一致的,就是在合适的位置安全可靠的根据用户的配置和Job的需要管理和运行Task,这里粗略的列举一下在运行 ...
Spark standalone简介与运行wordcount（master、slave1和slave2）
前期博客 Spark standalone模式的安装(spark-1.6.1-bin-hadoop2.6.tgz)(master.slave1和slave2) Spark运行模式概述 1. Stan ...
Spark 中 RDD的运行机制
1. RDD 的设计与运行原理 Spark 的核心是建立在统一的抽象 RDD 之上,基于 RDD 的转换和行动操作使得 Spark 的各个组件可以无缝进行集成,从而在同一个应用程序中完成大数据计算任务 ...
Spark应用程序的运行框架
几个基本概念: (1)job:包含多个task组成的并行计算,往往由action催生. (2)stage:job的调度单位. (3)task:被送到某个executor上的工作单元. (4)taskS ...
Spark学习笔记-如何运行wordcount（使用jar包）
IDE:eclipse Spark:spark-1.1.0-bin-hadoop2.4 scala:2.10.4 创建scala工程,编写wordcount程序如下 package com.luoga ...
【Spark Core】任务运行机制和Task源代码浅析1
引言上一小节<TaskScheduler源代码与任务提交原理浅析2>介绍了Driver側将Stage进行划分.依据Executor闲置情况分发任务,终于通过DriverActor向exe ...

随机推荐

php开发环境是什么
软件开发环境(Software Development Environment,SDE)是指在基本硬件和数字软件的基础上,为支持系统软件和应用软件的工程化开发和维护而使用的一组软件,简称SDE.它由软 ...
python网络编程中互斥锁与进程之间的通信
一.互斥锁进程之间数据隔离,但是共享一套文件系统,因而可以通过文件来实现进程直接的通信,但问题是必须自己加锁处理. 注意:加锁的目的是为了保证多个进程修改同一块数据时,同一时间只能有一个修改,即串行 ...
Collections -集合排序compareTo方法重写，shuffle，addall
package cn.learn.collection.Collections; /* 排序的对象的类,实现comparable借口,重写compareto方法若要打印必须重写toString方法, ...
luoguP1081 开车旅行题解(NOIP2012)
这道题是真滴火!(一晚上加一节信息课!) 先链接一下题目:luoguP1081 开车旅行首先,这个预处理就极其变态,要与处理出每一个点往后走A会去哪里,B会去哪里.而且还必须O(nlogn)给它跑出 ...
NGUI的滚动条的制作（scroll bar script）
一,我们添加一个sprite,添加一个box collider,然后添加一个scroll bar script,我们来看看scroll bar script的属性看到background和forgr ...
各种设备在linux中的文件名
各种设备在linux中的文件名: 设备设备在linux内的文件名 ide硬盘 /dev/ha[a-d] scs硬盘 /dev/sd[a-p] u盘 /dev/sd[a-p](与SAT ...
JSTL 使用 c:forEach 累加变量值
<body> <% int x = 1; int y = 2; request.setAttribute("x", x); request ...
elasticsearch 基础 —— Update API
Update API 更新API允许基于提供的脚本更新文档.该操作从索引获取文档(与分片并置),运行脚本(使用可选的脚本语言和参数),并对结果进行索引(也允许删除或忽略操作).它使用版本控制来确保在& ...
C语言实现读取文件所有内容到字符串
#include "stdio.h" #include "string" #include "stdlib.h" using namespa ...
98-基于FPGA Spartan6 的双路光纤PCIe采集卡(2路光纤卡) 光纤PCIe卡
1.板卡概述板卡采用xilinx Spartan6系列芯片,支持 PCI Express Base Specification 1.1 x1.内含丰富的逻辑资源和存储单元,板卡FPGA外接双片32M ...

spark为什么比mapreduce运行速度快很多

spark为什么比mapreduce运行速度快很多的更多相关文章

随机推荐

热门专题