对Spark的理解

Spark作为一个新的分布式计算引擎正慢慢流行起来，越来越来的企业也准备用它的替换MapReduce,根据自己在工作的一些体会谈谈的优势。

分布式计算归根到底还是一个Map和Reduce操作，Map操作对每个数据块进行计算，Reduce操作对结果进行汇总，现在一些NoSQL分布式数据库其实也是这么一套计算框架，只是map和reduce太基础，太简陋，实现相关的业务时开发比较复杂，不符合生产力发展的需求，这样Spark对map和reduce进行了抽象和封装提出了RDD的概念

RDD的提出是Spark的最大的进步，它让我们不再关注计算本身，以前我们老想着map,reduce啥的，RDD对数据集进行抽象，我们的关注点变成了数据集本身，又借鉴了函数式编程的一些思想，我们可以对数据集做各种各样的操作（spark的transformation和action），Spark框架底层转换了map和reduce的操作，大大的提高了生成力。当然还加入了一些优化，比如map的输出不需要落地，其实要做大数据的计算怎么可能不落地。做大数据的聚集操作时磁盘和网络IO依旧是制约速度的主要原因

Spark提供了更加灵活的DAG编程模型，在spark,每一个RDD用来描述数据集的一个状态，而这个状态是从上一个状态转换过来的，因此RDD之间会形成一个依赖关系，这种RDD的依赖链会触发一个job,而job会被切分成一个stage的DAG图。给了job很大的优化空间，目前DAG减少了数据的读写（缓冲在内存中）和网络的传输（宽依赖和窄依赖），用于迭代和交互计算支持。传统的mapreduce为了进行迭代计算，需要多个job进行依赖，数据要不停的在HDFS上进行读写，性能大大降低。

还一个优化就是Spark的作业调度。Spark的job是线程级别的，而spark sql中一个sql就是一个job, sql的执行轻量很多。hive的job是进程级别的，一个sql就是一个job,需要启动多个jvm进程。

对Spark的理解的更多相关文章

【Spark工作原理】Spark任务调度理解
Spark内部有若干术语(Executor.Job.Stage.Task.Driver.DAG等),需要理解并搞清其内部关系,因为这是性能调优的基石. 节点类型有: 1. Master 节点: 常 ...
spark partition 理解 / coalesce 与 repartition的区别
一.spark 分区 partition的理解: spark中是以vcore级别调度task的. 如果读取的是hdfs,那么有多少个block,就有多少个partition 举例来说:sparksql ...
Spark 快速理解
转自:http://blog.csdn.net/colorant/article/details/8255958 ==是什么 == 目标Scope(解决什么问题) 在大规模的特定数据集上的迭代运算或重 ...
spark机制理解（一）
一基本术语 Application: 基于Spark的用用户程序,包含了Driver程序和集群上的Executor. Driver Program: 运行行main函数并且新建SparkCont ...
Spark RDD理解
目录 ----RDD简介 ----RDD操作类别 ----RDD分区 ----宽依赖和窄依赖作用 ----RDD分区划分器 ----RDD到调度返回顶部 RDD简介 RDD是弹性分布式数据集(Res ...
Spark RDD理解-总结
1.spark是什么快速.通用.可扩展的分布式计算引擎. 2. 弹性分布式数据集RDD RDD(Resilient Distributed Dataset),是Spark中最基本的数据抽象结构,表示 ...
Spark里边：Worker源代码分析和架构
首先由Spark图表理解Worker于Spark中的作用和地位: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvYW56aHNvZnQ=/font/5a6L ...
Spark+ECLIPSE+JAVA+MAVEN windows开发环境搭建及入门实例【附详细代码】
http://blog.csdn.net/xiefu5hh/article/details/51707529 Spark+ECLIPSE+JAVA+MAVEN windows开发环境搭建及入门实例[附 ...
Spark处理日志文件常见操作
spark有自己的集群计算技术,扩展了hadoop mr模型用于高效计算,包括交互式查询和流计算.主要的特性就是内存的集群计算提升计算速度.在实际运用过程中也当然少不了对一些数据集的操作.下面将通过 ...

随机推荐

[转]深入详解javascript之delete操作符
最近重新温习JS,对delete操作符一直处于一知半解的状态,偶然发现一篇文章,对此作了非常细致深入的解释,看完有茅塞顿开的感觉,不敢独享,大致翻译如下. 原文地址:http://perfection ...
bzoj 3505 [Cqoi2014]数三角形——排列组合
题目:https://www.lydsy.com/JudgeOnline/problem.php?id=3505 好题!一定要经常回顾! 那个一条斜线上的点的个数是其两端点横坐标之差和纵坐标之差的g ...
日志收集系统搭建-BELK
前言日志是我们分析系统运行情况.问题定位.优化分析等主要数据源头.目前,主流的业务系统都采用了分布式.微服务的形式.如果想要查看日志,就需要从不同的节点上去查看,而且对于整个业务链路也非常不清晰.因 ...
CentOS 7 安装Percona，Xtrabackup
CentOS 7 安装Percona 5.7,Xtrabackup 简介 Percona Server为 MySQL 数据库服务器进行了改进,在功能和性能上较 MySQL 有着很显著的提升.该版本提升 ...
寻找php.ini之旅
/usr/local/php-fpm/lib/php.ini 可以通过phpinfo()来查看 https://www.cnblogs.com/ChineseMoonGod/p/6474772.htm ...
file“xxxxx”has modification times xxxxx s in the future..
这是因为一个项目从一个电脑拷贝的到另一个电脑上时,两个电脑的时钟不一致所致,修改一下项目所在目录的修改时间即可: find /your/dir -type f -exec touch {} + 也可以 ...
GWT更改元素样式属性
GWT有时候不像普通网页那样可以自由的添加CSS改变样式,所幸gwt提供了一些底层的方法,通过这些方法来实现DOM操作等.通过gwt部件的getElement()可以取得dom上的元素,这时就能对该元 ...
HDU4039(map应用)
The Social Network Time Limit: 3000/2000 MS (Java/Others) Memory Limit: 65768/65768 K (Java/Others)T ...
【转】 Pro Android学习笔记（八三）：了解Package（2）：包签名过程
目录(?)[-] 类比例子数字签名文章转载只能用于非商业性质,且不能带有虚拟货币.积分.注册等附加条件.转载须注明出处:http://blog.csdn.net/flowingflying/ 在W ...
映射块设备提示rbd: sysfs write failed的解决方法
标签(空格分隔): ceph ceph运维 rbd 问题描述: 创建完镜像foo后,映射镜像时提示下面的错误: [root@node3 ~]# rbd map testpool/foo rbd: sy ...

对Spark的理解

对Spark的理解的更多相关文章

随机推荐

热门专题