Spark初探

Apache Spark是一个针对大规模数据的快速、统一处理引擎。

One stack rule them all

1-Stream Processing :spark Streaming

2-Ad-hoc-Queries :Spark SQL

3-Batch Processing: Spark Core(和Map-reduce一样是批处理框架)

Map-reduce慢的原因：

1-在执行Map-reduce job运行的过程中有大量的磁盘操作；

2-partition的时候和进入reduce之前会进行排序；一部分排序在map中进行，另一部分排序在reduce中进行；这里的排序使用的是归并排序；

3-额外的复制，网络传输，序列化；

Spark快的原因：

1-基于内存的计算

迭代都是在内存中计算的，shuffle过程也是在磁盘中进行的；所以spark虽然是基于内存的数据处理框架，但是并不是说所有的操作都是在内存中进行的。

2-DAG

Spark支持的是那种语言：

Scala（Excellent）

Python（good）

java（good）

spark运行模式

local ：多用于测试；

Standalone：独立于Hadoop的一套运行环境，具有独立的资源管理者等组件；

Mesos：基于Mesos资源调度框架运行；

YARN：基于Yarn的资源调度框架运行；

Mesos和Yarn都是资源调度管理框架

Mesos是用C++实现的，支持细粒度和粗粒度的资源管理；

Yarn使用java实现，仅支持粗粒度的资源调度；这里的细粒度指的是自愿的弹性，用多少分多少，后面需求增加可以再分配，而Yarn的粗粒度资源调度的意思是初始画的时候分配多少就一直是多少，直到job进程消亡。

Spark初探的更多相关文章

[Big Data]从Hadoop到Spark的架构实践
摘要:本文则主要介绍TalkingData在大数据平台建设过程中,逐渐引入Spark,并且以Hadoop YARN和Spark为基础来构建移动大数据平台的过程. 当下,Spark已经在国内得到了广泛的 ...
[转载] 从Hadoop到Spark的架构实践
转载自http://www.csdn.net/article/2015-06-08/2824889 http://www.zhihu.com/question/26568496 当下,Spark已经在 ...
从Hadoop到Spark的架构实践
当下,Spark已经在国内得到了广泛的认可和支持:2014年,Spark Summit China在北京召开,场面火爆:同年,Spark Meetup在北京.上海.深圳和杭州四个城市举办,其中仅北京就 ...
Scala极速入门
摘要当面向对象遇到函数式编程,这就是Scala.简练的语言描述与简单的例子相辅相成,希望能够对大家学习Scala有所帮助. scala 入门定义 Scala语言是一种面向对象语言,同时又结合了命令 ...
Spark小课堂Week5 Scala初探
Spark小课堂Week5 Scala初探 Scala是java威力加强版. 对Java的改进这里会结合StreamingContext.scala这个代码说明下对Java的改进方面. 方便测试方式 ...
Spark Streaming揭秘 Day21 动态Batch size实现初探(下)
Spark Streaming揭秘 Day21 动态Batch size实现初探(下) 接昨天的描述,今天继续解析动态Batch size调整的实现. 算法动态调整采用了Fix-point迭代算法, ...
Spark Streaming揭秘 Day20 动态Batch size实现初探(上)
Spark Streaming揭秘 Day20 动态Batch size实现初探(上) 今天开始,主要是通过对动态Batch size调整的论文的解析,来进一步了解SparkStreaming的处理机 ...
Spark Streaming中动态Batch Size实现初探
本期内容 : BatchDuration与 Process Time 动态Batch Size Spark Streaming中有很多算子,是否每一个算子都是预期中的类似线性规律的时间消耗呢? 例如: ...
Spark核心—RDD初探
本文目的最近在使用Spark进行数据清理的相关工作,初次使用Spark时,遇到了一些挑(da)战(ken).感觉需要记录点什么,才对得起自己.下面的内容主要是关于Spark核心-RDD的相关 ...

随机推荐

CodeForces 1293 C NEKO's Maze Game
[题目链接] [题目大意] 有一个2 ∗ n的地图,小女孩从(1,1)想移动到(2,n) 有q次询问,每次询问更改一个格子状态(是否可以通过) 只能上下左右移动而不能斜着移动,问每次操作后,是否可以移 ...
Aspose下载图片
/// <summary> /// 把DataTable数据按照Excel模板导出到Excel /// </summary> /// <param name=" ...
结合SpEL使用@Value-基于配置文件或非配置的文件的值注入-Spring Boot
本文主要介绍Spring @Value 注解注入属性值的使用方法的分析,文章通过示例代码非常详细地介绍,对于每个人的学习或工作都有一定的参考学习价值在使用spring框架的项目中,@Value是经常 ...
本地缓存解决方案-Caffeine Cache
1.1 关于Caffeine Cache Google Guava Cache是一种非常优秀本地缓存解决方案,提供了基于容量,时间和引用的缓存回收方式.基于容量的方式内部实现采用LRU算法,基于引 ...
题解：2018级算法第四次上机 C4-商人卖鱼
题目描述: 样例: 实现解释: 需要简单分析的贪心题知识点: 贪心,自定义排序,提前存储题目分析: 卖鱼,鱼卖出去需要时间,鱼没被卖出去之前需要吃饲料则有,如果卖a鱼的话b鱼会吃饲料c份,而卖b ...
Python网络编程03 /缓存区、基于TCP的socket循环通信、执行远程命令、socketserver通信
Python网络编程03 /缓存区.基于TCP的socket循环通信.执行远程命令.socketserver通信目录 Python网络编程03 /缓存区.基于TCP的socket循环通信.执行远程命 ...
redis linux开机启动（简单高效）
1. 在edis下载文件包中找 redis/utils 找到redis_init_script 将它拷贝到 /etc/init.d 目录并重命名为redis cd redis cd utils mv ...
java 两个数组相减结果
public static void main(String[] args) { String[] a = new String[] { "1", "5", & ...
T2 监考老师题解
第二题,他并不是多难的算法.甚至连搜索都不用,他的题目要求和数据断定了他第二题的地位. 在一个大试场里,有 n 行 m 列的考生,小王和众多同学正在考试,这时,有一部分考生作弊,当然,监考老师能发现 ...
集训作业洛谷P1866 编号
这个题是个数学题啊. 总体思路不是很难,每个兔子有一个编号,只要不停的看下一个兔子有多少可选编号,再乘上之前的所有可能性就可以算出一共的编号方法. #include<iostream> # ...

Spark初探

Spark初探的更多相关文章

随机推荐

热门专题