spark和mapreduce的区别

spark和mapreduced 的区别
map的时候处理的时候要落地磁盘每一步都会落地磁盘 reduced端去拉去的话基于磁盘的迭代
spark是直接再内存中进行处理 dag 执行引擎是一个job的优化将一个job话成很多快分成多个task去跑任务读取数据来源比喻亚马逊的s3 和hbase很广运行模式也有很多
spark项目一般java 和scala 来写 python r 但是弊端是 python有很多java和scala的方法得自己写没有所以常用的就是java和scala\
yarn的主节点交rsmanger 从节点nodemanger 管理任务的是aplicationmaster
1.x中是jobtraker 2.x中引入了yarn mesos也是元调度框架在国外用的比较多每个快是128m 数据来源可以是hdfs 9083mestore端口可以找到hive中的元数据hive不支持同事多个用户去连接mysql是支持的底层是mapreducejob
storm 更多的是想sparkstreaming去转他不是说进来一条数据处理一条可以认为的控制可以小到storm的微处理大到批处理 streaming 我可以拿过去一天和过去一个月的数据就比较多了处理起来逻辑就复杂了进行处理 spark的主件基本底层都是rdd sparkcore里面主要来做数据分析 etl
sparksql 底层解析的是sparksql 而hive的是mapreducejob 一个基于内存一个是磁盘

个人浅见不足之处请多指正

spark和mapreduce的区别的更多相关文章

Spark 与 MapReduce的区别
学习参考自 http://spark-internals.books.yourtion.com/markdown/4-shuffleDetails.html 1. Shuffle read 边 fe ...
spark与mapreduce的区别
spark是通过借鉴Hadoop mapreduce发展而来,继承了其分布式并行计算的优点,并改进了mapreduce明显的缺陷,具体表现在以下几方面: 1.spark把中间计算结果存放在内存中,减少 ...
spark与Hadoop的区别
1. Mapreduce和Spark的相同和区别两者都是用mr模型来进行并行计算 hadoop的一个作业:job job分为map task和reduce task,每个task都是在自己的进程中运 ...
GraphLab GraphLab和MapReduce的区别
https://turi.com/ GraphLab和MapReduce的区别 https://baike.baidu.com/item/GraphLab/16423125 2. GraphLab和M ...
Alluxio增强Spark和MapReduce存储能力
Alluxio的前身为Tachyon.Alluxio是一个基于内存的分布式文件系统:Alluxio以内存为中心设计,他处在诸如Amazon S3. Apache HDFS 或 OpenStack Sw ...
Spark 颠覆 MapReduce 保持的排序记录
在过去几年,Apache Spark的採用以惊人的速度添加着,通常被作为MapReduce后继,能够支撑数千节点规模的集群部署. 在内存中数据处理上,Apache Spark比MapReduce更加 ...
详解MapReduce（Spark和MapReduce对比铺垫篇）
本来笔者是不打算写MapReduce的,但是考虑到目前很多公司还都在用这个计算引擎,以及后续要讲的Hive原生支持的计算引擎也是MapReduce,并且为Spark和MapReduce的对比做铺垫,笔 ...
重要 | Spark和MapReduce的对比，不仅仅是计算模型？
[前言:笔者将分上下篇文章进行阐述Spark和MapReduce的对比,首篇侧重于"宏观"上的对比,更多的是笔者总结的针对"相对于MapReduce我们为什么选择Spar ...
spark VS mapreduce
Apache Spark,一个内存数据处理的框架,现在是一个顶级Apache项目. 这是Spark迈向稳定的重要一步,因为它越来越多地在下一代大数据应用中取代MapReduce. MapReduce是 ...

随机推荐

Python--day42--mysql数据库--mysql前言
HDU 6438"Buy and Resell"（贪心+优先级队列）
传送门 •参考资料 [1]:HDU6438(优先队列+思维) •题意有n个城市,第 i 天你会达到第 i 个城市: 在第 i 个城市中,你可以用 ai 元购买一个物品,或者用 ai 元卖掉一个物品, ...
python基础十一之迭代器和生成器
可迭代内置方法中含有__iter__的数据类型都是可迭代的,只要是可迭代的就可以使用for循环,反之亦然. print(dir('')) # dir()函数可以获取当前数据类型的所有内置方法返回值 ...
免费开源3D模型设计软件汇总
免费开源3D模型设计软件汇总 3D 打印需要先通过计算机辅助设计(CAD)进行建模,再将建好的3D模型“分割”成逐层的截面,从而指导3D打印机进行逐层打印.因此用于3D打印的3D模型大都储存或输出成 ...
P1048 数组中的逆序对
题目描述在数组中的两个数字,如果前面一个数字大于后面的数字,则这两个数字组成一个逆序对.输入一个数组,求出这个数组中的逆序对的总数. 输入格式第一行包含一个整数 \(n\) ,表示数组中的元素个数 ...
JavaSE基础知识---常用对象API之String类
一.String类 Java中用String类对字符串进行了对象的封装,这样的好处在于对象封装后可以定义N多属性和行为,就可以对字符串这种常见的数据进行方便的操作. 格式:(1)String s1 = ...
Java中大量if...else语句的消除替代方案
在我们平时的开发过程中,经常可能会出现大量If else的场景,代码显的很臃肿,非常不优雅.那我们又没有办法处理呢? 针对大量的if嵌套让代码的复杂性增高而且难以维护.本文将介绍多种解决方案. 案例 ...
clickhouse创建视图SQL 错误 [47]: ClickHouse exception, code: 47
使用clickhouse创建视图时报错 SQL 错误 [47]: ClickHouse exception, code: 47, host: localhost, port: 8123; Code: ...
举例理解Hibernate的三种状态（转）
转自:https://blog.csdn.net/yiguang_820/article/details/79073152 初学Hibernate,了解到Hibernate有三种状态:transien ...
C#反射与特性(一)：反射基础
目录 C#反射与特性(一):反射基础 1. 说明 1.1 关于反射.特性 2. 程序集操作 2.1 获取程序集对象(Assembly) 2.2 Assembly 使用 2.3 获取程序集的方式 C# ...

spark和mapreduce的区别

spark和mapreduce的区别的更多相关文章

随机推荐

热门专题