谈谈Hadoop MapReduce和Spark MR实现
谈谈MapReduce的概念、Hadoop MapReduce和Spark基于MR的实现
什么是MapReduce?
MapReduce是一种分布式海量数据处理的编程模型,用于大规模数据集的并行运算。
有以下几个特点:
分而治之,并行处理。
抽象了map和reduce的计算流程,对于分布式存储的数据可以并行的进行map处理,之后在reduce端对map结果进行汇总。
移动计算而非移动数据。
数据的计算传输需要大量的磁盘和网络IO。MapReduce会尽量在数据存储的节点执行计算,以减少不必要的开销。
Hadoop MapReduce
我们常说的MapReduce就是Hadoop MapReduce。
Hadoop MapReduce作业被分成一系列运行在分布式集群中的map任务和reduce任务,每个任务都工作在被指定的小的数据自己上,因此负载是遍布集群中各个节点上的。
map任务负责数据的载入、解析、转换和过滤。MapReduce作业的输入是一系列储存在HDFS中的文件。map任务的输出被称为中间键和中间值,会被发送到reduce端进行后续处理。
每个reduce任务负责处理map任务输出结果的一个子集。MapReduce确保每个reduce的输入都是按键排序的。
系统执行排序、将map输出作为输入传递给reduce的过程称为shuffle。shuffle是MapReduce的心脏,关于shuffle详情请自己搜索。
Pig和Hive都是对MapReduce更高层次的抽象,他们都会将高级的语言翻译成一组MapReduce作业,执行计算。
Spark基于MapReduce实现
Spark通过借鉴Hadoop MapReduce,继承了其分布式并行计算的优点,并改进了MapReduce的一些缺点。
Spark并行处理主要基于其内部RDD和DAG来实现。
RDD(弹性分布式数据集):作为Spark基本编程模型,它是MapReduce模型的扩展和延伸。其运用高效的数据共享概念(分区)和类似MapReduce的操作方式,使得并行计算能高效的进行。
DAG(有向无环图):Spark使用DAG描述了RDD的依赖关系(宽/窄依赖),维护了RDD间的血缘关系,减少了迭代过程中数据的落地,提高了处理效率。
我们提交一个Spark代码,大概执行流程如下:
- 根据行动操作划分job
- 每个job内部根据宽依赖划分stage。stage分为ShuffleMapStage和ResultStage。
- 执行stage内部的task。每个stage内部会有许多task,task是Spark的最小执行单元,task的数量取决于RDD的分区数量,spark会优先选择数据所在的节点启动task。task分为ShuffleMapTask和ResultTask。ShuffleMapTask返回输出结果相关信息供后续task使用;ResultTask根据结果大小,会选择丢弃或者返回给Driver端。
- ......
从上面流程,我们可以简单总结:
- Spark通过RDD的分区,来保证MR中的并行处理
- Spark通过DAG宽窄依赖,优化了task计算流程,减少了数据落盘的次数
- Spark中也会保障数据本地化,来实现移动计算而非移动数据。
Spark与MapReduce比较
- Spark会中间数据放在内存中,迭代运算效率高。MapReduce的中间计算结果保存在磁盘上,势必影响整体的运行速度。
- Spark的容错性高。Spark的RDD可以根据血统来重新生成数据,也可以通过checkpoint来实现容错。
- Spark更加的通用。Spark提供了许多的算子,可以更便捷的处理数据。
参考
《MapReduce设计模式》
《Hadoop权威指南》
《图解Spark核心技术与案例实践》
参考书籍+个人理解,如有偏差,欢迎交流。
谈谈Hadoop MapReduce和Spark MR实现的更多相关文章
- Hadoop MapReduce概念学习系列之mr程序组件全貌(二十)
其实啊,spilt是,控制Apache Hadoop Mapreduce的map并发任务数,详细见http://www.cnblogs.com/zlslch/p/5713652.html map,是m ...
- Hadoop MapReduce Task的进程模型与Spark Task的线程模型
Hadoop的MapReduce的Map Task和Reduce Task都是进程级别的:而Spark Task则是基于线程模型的. 多进程模型和多线程模型 所谓的多进程模型和多线程模型,指的是同一个 ...
- hadoop的mapReduce和Spark的shuffle过程的详解与对比及优化
https://blog.csdn.net/u010697988/article/details/70173104 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spar ...
- 关于hadoop3.x MR报错:找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster
用的apache Hadoop3.X,今天运行MR报错: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster 关键需要配置两个配置:ma ...
- hadoop MapReduce Yarn运行机制
原 Hadoop MapReduce 框架的问题 原hadoop的MapReduce框架图 从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路: 首先用户程序 (JobClient) ...
- Hadoop MapReduce编程学习
一直在搞spark,也没时间弄hadoop,不过Hadoop基本的编程我觉得我还是要会吧,看到一篇不错的文章,不过应该应用于hadoop2.0以前,因为代码中有 conf.set("map ...
- 从分治算法到 Hadoop MapReduce
从分治算法说起 要说 Hadoop MapReduce 就不得不说分治算法,而分治算法其实说白了,就是四个字 分而治之 .其实就是将一个复杂的问题分解成多组相同或类似的子问题,对这些子问题再分,然后再 ...
- MapReduce和Spark写入Hbase多表总结
作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 大家都知道用mapreduce或者spark写入已知的hbase中的表时,直接在mapreduc ...
- cloudera learning8:MapReduce and Spark
YARN:Yet Another Resource Negotiator, Hadoop集群的资源管理器,可以对运行在Hadoop上的MapReduce V2,Spark,Impala等进行内存和CP ...
随机推荐
- 如何去除List集合中重复的元素
1.通过循环进行删除 public static void removeDuplicate(List list) { for ( int i = 0 ; i < list.size() - 1 ...
- JS代码简洁之道--函数
函数的参数越少越好 有一个准则是:如果你的函数参数超过两个,就应该改为对象传入. 这样做是合理的,因为当函数参数超过两个时,参数顺序开始变得难以记忆,而且容易出现一种很尴尬的情况:比如我只需要传入第三 ...
- 如何解决TOP-K问题
前言:最近在开发一个功能:动态展示的订单数量排名前10的城市,这是一个典型的Top-k问题,其中k=10,也就是说找到一个集合中的前10名.实际生活中Top-K的问题非常广泛,比如:微博热搜的前100 ...
- java语言基础(九)_final_权限_内部类
final关键字 final关键字代表最终.不可改变的. 常见四种用法: 可以用来修饰一个类 可以用来修饰一个方法 还可以用来修饰一个局部变量 还可以用来修饰一个成员变量 1)修饰一个类 public ...
- python3.8-运行jupyter 报raise NotImplementedError
最近安装了python3.8 并安装jupyter,运行时却提示NotImplementedError,很崩溃 经过多次查证 貌似是3.8版本的bug...(这么牛逼的问题,被我遇到了.),不过网络上 ...
- JVM源码分析之synchronized实现
“365篇原创计划”第十二篇. 今天呢!灯塔君跟大家讲: JVM源码分析之synchronized实现 java内部锁synchronized的出现,为多线程的并发执行提供了一个稳定的 ...
- java 中Object类中toString()的使用
1. 当我们输出一个对象的引用时,实际上就是调用当前对象的toString() 2. Object类中toString()的定义: public String toString() { return ...
- 性能测试之jmeter逻辑控制种类详解一
逻辑控制器介绍 Jmeter逻辑控制可以对元件的执行逻辑进行控制,除Once only Controller仅一次控制器以外,其他控制器都可以可以嵌套其他种类的控制器,下面是jmeter5.3支持的控 ...
- Django---进阶4
目录 CBV源码剖析 模版语法传值 过滤器(过滤器只能最多有两个参数) 标签 自定义过滤器.标签.inclusion_tag 模版的继承 模版的导入 作业 CBV源码剖析 # 你自己不要修改源码 除了 ...
- ASP.NET MVC Route详解
在MVC3.0版本的时候,微软终于引入了第二种模板引擎:Razor.在这之前,我们一直在使用WebForm时代沿留下来的ASPX引擎或者第三方的NVelocity模板引擎.Razor在减少代码冗余.增 ...