spark和MR比较

MapReduce: 分布式的计算框架
缺点：执行速度慢
IO瓶颈 ==> 磁盘IO 网络IO
shuffle机制：数据需要输出到磁盘，而且每次shuffle都需要进行排序操作
框架的机制：
只有Map和Reduce两个算子，对于比较复杂的任务，需要构建多个job来执行
当存在job依赖的时候，job之间的数据需要落盘(输出到HDFS上)

Spark：基于内存的分布式计算框架==>是一个执行引擎
用RDD进行各种运算，有多种算子（具体可以参考源码）
起源于加州大学伯克利分校的AMPLib实验室
官网：http://spark.apache.org/
官方博客：https://databricks.com/blog

运行环境：

MR运行在YARN上，

spark

local：本地运行
standalone：使用Spark自带的资源管理框架，运行spark的应用
yarn：将spark应用类似mr一样，提交到yarn上运行
mesos：类似yarn的一种资源管理框架

spark和MR比较的更多相关文章

Spark比MR快是因为在内存中计算？错！
MapReduce 就像一台又慢又稳的老爷车,虽然距离 MapReduce 面市到现在已经过去了十几年的时间,但它始终没有被淘汰,任由大数据技术日新月异.蓬蓬勃勃.花里胡哨地发展,这个生态圈始终有它的 ...
谈谈Hadoop MapReduce和Spark MR实现
谈谈MapReduce的概念.Hadoop MapReduce和Spark基于MR的实现什么是MapReduce? MapReduce是一种分布式海量数据处理的编程模型,用于大规模数据集的并行运算. ...
简要MR与Spark在Shuffle区别
一.区别 ①本质上相同,都是把Map端数据分类处理后交由Reduce的过程. ②数据流有所区别,MR按map, spill, merge, shuffle, sort, r educe等各阶段逐一实现 ...
spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
Spark入门实战系列--1.Spark及其生态圈简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .简介 1.1 Spark简介年6月进入Apache成为孵化项目,8个月后成为Apache ...
hadoop之Spark强有力竞争者Flink,Spark与Flink：对比与分析
hadoop之Spark强有力竞争者Flink,Spark与Flink:对比与分析 Spark是一种快速.通用的计算集群系统,Spark提出的最主要抽象概念是弹性分布式数据集(RDD),它是一个元素集 ...
Spark与Flink大数据处理引擎对比分析！
大数据技术正飞速地发展着,催生出一代又一代快速便捷的大数据处理引擎,无论是Hadoop.Storm,还是后来的Spark.Flink.然而,毕竟没有哪一个框架可以完全支持所有的应用场景,也就说明不可能 ...
Spark学习笔记总结-超级经典总结
Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用.减少了延时处理,提高 ...
Spark之 spark简介、生态圈详解
来源:http://www.cnblogs.com/shishanyuan/p/4700615.html 1.简介 1.1 Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithm ...

随机推荐

OpenStack Cirros
Cirros Openstack的开发,基本都使用这个image来测试,因为他比较小,只有10M. 镜像介绍镜像的地址: https://launchpad.net/cirros/trunk/0.3 ...
(转)linux 中使用ls指定输出时间格式
linux 中使用ls指定输出时间格式原文:http://blog.csdn.net/chaofanwei/article/details/13018753 ls -l --time-style=x ...
(转)认识 Linux 文件系统
7.1 认识 Linux 文件系统原文:https://wizardforcel.gitbooks.io/vbird-linux-basic-4e/content/59.html Linux 最传统 ...
迅雷笔试题（JAVA多线程）启动三个线程，分别打印A B C，现在写一个程序循环打印ABCABCABC
题目:http://wenku.baidu.com/view/d66187aad1f34693daef3e8a.html 启动三个线程,分别打印A B C,现在写一个程序循环打印ABCABCABC. ...
Linux Shell 中数组的语法及应用
#!/bin/sh## 数组的声明与初始化方法# 先声明后赋值:declare -a arrayarray=(one two three) # 声明并初始化:array_1=(1 2 3 four) ...
java程序中路径问题
JAVA中获取路径: 1.在web中取得路径: 以工程名为TEST为例: (1)得到包含工程名的当前页面全路径:request.getRequestURI() 结果:/TEST/test.jsp ...
php安装错误 (node.c:1953:error) 解决办法
CentOs安装PHP在make时报错: root@---- [/opt/php-5.2.17]# make /bin/sh /opt/php-5.2.17/libtool --silent --pr ...
最简实例演示asp.net5中用户认证和授权(3)
上接: 最简实例演示asp.net5中用户认证和授权(2) 在实现了角色的各种管理接口后,下一步就是实现对用户的管理,对用户管理的接口相对多一些,必须要实现的有如下三个: 1 public inter ...
Lambda动态排序分页通用方法
using System; using System.Collections.Generic; using System.Linq; using System.Linq.Expressions; us ...
Matlab之数据处理
写在前面的,软件不太强大,每次保存都需要生成rec和dark的文件,在处理是只需要一个就行了,所有网上查看了下运用批处理的命令去掉多余的文件: 解决办法:windows命令模式下CMD进入文件的目录, ...

spark和MR比较

spark和MR比较的更多相关文章

随机推荐

热门专题