Spark初探

Apache Spark是一个针对大规模数据的快速、统一处理引擎。

One stack rule them all

1-Stream Processing :spark Streaming

2-Ad-hoc-Queries :Spark SQL

3-Batch Processing: Spark Core(和Map-reduce一样是批处理框架)

Map-reduce慢的原因：

1-在执行Map-reduce job运行的过程中有大量的磁盘操作；

2-partition的时候和进入reduce之前会进行排序；一部分排序在map中进行，另一部分排序在reduce中进行；这里的排序使用的是归并排序；

3-额外的复制，网络传输，序列化；

Spark快的原因：

1-基于内存的计算

迭代都是在内存中计算的，shuffle过程也是在磁盘中进行的；所以spark虽然是基于内存的数据处理框架，但是并不是说所有的操作都是在内存中进行的。

2-DAG

Spark支持的是那种语言：

Scala（Excellent）

Python（good）

java（good）

spark运行模式

local ：多用于测试；

Standalone：独立于Hadoop的一套运行环境，具有独立的资源管理者等组件；

Mesos：基于Mesos资源调度框架运行；

YARN：基于Yarn的资源调度框架运行；

Mesos和Yarn都是资源调度管理框架

Mesos是用C++实现的，支持细粒度和粗粒度的资源管理；

Yarn使用java实现，仅支持粗粒度的资源调度；这里的细粒度指的是自愿的弹性，用多少分多少，后面需求增加可以再分配，而Yarn的粗粒度资源调度的意思是初始画的时候分配多少就一直是多少，直到job进程消亡。

Spark初探的更多相关文章

[Big Data]从Hadoop到Spark的架构实践
摘要:本文则主要介绍TalkingData在大数据平台建设过程中,逐渐引入Spark,并且以Hadoop YARN和Spark为基础来构建移动大数据平台的过程. 当下,Spark已经在国内得到了广泛的 ...
[转载] 从Hadoop到Spark的架构实践
转载自http://www.csdn.net/article/2015-06-08/2824889 http://www.zhihu.com/question/26568496 当下,Spark已经在 ...
从Hadoop到Spark的架构实践
当下,Spark已经在国内得到了广泛的认可和支持:2014年,Spark Summit China在北京召开,场面火爆:同年,Spark Meetup在北京.上海.深圳和杭州四个城市举办,其中仅北京就 ...
Scala极速入门
摘要当面向对象遇到函数式编程,这就是Scala.简练的语言描述与简单的例子相辅相成,希望能够对大家学习Scala有所帮助. scala 入门定义 Scala语言是一种面向对象语言,同时又结合了命令 ...
Spark小课堂Week5 Scala初探
Spark小课堂Week5 Scala初探 Scala是java威力加强版. 对Java的改进这里会结合StreamingContext.scala这个代码说明下对Java的改进方面. 方便测试方式 ...
Spark Streaming揭秘 Day21 动态Batch size实现初探(下)
Spark Streaming揭秘 Day21 动态Batch size实现初探(下) 接昨天的描述,今天继续解析动态Batch size调整的实现. 算法动态调整采用了Fix-point迭代算法, ...
Spark Streaming揭秘 Day20 动态Batch size实现初探(上)
Spark Streaming揭秘 Day20 动态Batch size实现初探(上) 今天开始,主要是通过对动态Batch size调整的论文的解析,来进一步了解SparkStreaming的处理机 ...
Spark Streaming中动态Batch Size实现初探
本期内容 : BatchDuration与 Process Time 动态Batch Size Spark Streaming中有很多算子,是否每一个算子都是预期中的类似线性规律的时间消耗呢? 例如: ...
Spark核心—RDD初探
本文目的最近在使用Spark进行数据清理的相关工作,初次使用Spark时,遇到了一些挑(da)战(ken).感觉需要记录点什么,才对得起自己.下面的内容主要是关于Spark核心-RDD的相关 ...

随机推荐

洛谷 P1433 吃奶酪状压DP
题目描述分析比较简单的状压DP 我们设\(f[i][j]\)为当前的状态为\(i\)且当前所在的位置为\(j\)时走过的最小距离因为老鼠的坐标为\((0,0)\),所以我们要预处理出\(f[1& ...
Ticket Game思维题
题目链接题意: 给你一个n的序列(n=2*k),由数字和?(偶数个)组成,A和B分别操作(B先操作):把?变成一个任意的0-9的数字,如果最后前n/2和后n/2个数字之和相等,则A胜,否则B胜. 分 ...
Tomcat 架构原理解析到架构设计借鉴
Tomcat 发展这么多年,已经比较成熟稳定.在如今『追新求快』的时代,Tomcat 作为 Java Web 开发必备的工具似乎变成了『熟悉的陌生人』,难道说如今就没有必要深入学习它了么?学习它我们又 ...
WPF 最基本的前后台代码对照
最基本的3D代码对照 xaml代码 <Viewport3D> <Viewport3D.Camera> <PerspectiveCamera Position=" ...
celery 基础教程（一）：工作流程，架构以及概念
1.工作流程 celery通过消息进行通信,通常使用一个叫Broker(中间人)来协client(任务的发出者)和worker(任务的处理者). clients发出消息到队列中,broker将队列中的 ...
LeetCode 82，考察你的基本功，在有序链表中删除重复元素II
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是LeetCode专题的第51篇文章,我们来看LeetCode第82题,删除有序链表中的重复元素II(Remove Duplicates ...
MySQL 三万字精华总结 + 面试100 问，吊打面试官绰绰有余（收藏系列）
写在之前:不建议那种上来就是各种面试题罗列,然后背书式的去记忆,对技术的提升帮助很小,对正经面试也没什么帮助,有点东西的面试官深挖下就懵逼了. 个人建议把面试题看作是费曼学习法中的回顾.简化的环节,准 ...
Java中使用方法的注意事项
Java方法使用的注意事项本文列举了几个小白在java中使用方法应该注意的几个地方 1. 方法应该定义在类中2.方法中不可以再嵌套方法3.方法定义的前后顺序无所谓4.想要执行方法必须要调用5.如果方 ...
更优雅的在 Xunit 中使用依赖注入
Xunit.DependencyInjection 7.0 发布了 Intro 上次我们已经介绍过一次大师的 Xunit.DependencyInjection https://www.cnblogs ...
kubernetes+Azure DevOps实现.Net Core项目的自动化部署&均衡负载
1. 前言 2. Net Core项目本身的准备 2.1 dockerfile 2.2 创建kubernetes用于helm的chart包 2.2.1 说明 2.2.2 chart文件目录和文件组成 ...

Spark初探

Spark初探的更多相关文章

随机推荐

热门专题